De la identificación de los datos de salud
Nuestro software deidentificazione de la salud datos de extremo a extremo de llave en mano, totalmente personalizable, de manera efectiva, aborda estos desafíos con el poder de procesamiento del lenguaje natural (PLN).
Introducción
Con el creciente número de datos de carácter personal producida y almacenada por las organizaciones, la privacidad de los datos se está convirtiendo en una prioridad cada vez más importante. Los datos apoyan la investigación de vanguardia, la innovación y ayudar en el desarrollo de soluciones a problemas del mundo real. Esto es particularmente cierto en el sector de la salud.
El tipo, cantidad y calidad de los datos digitalizados, proporcionar a los profesionales de la salud con información crítica acerca de los pacientes, consentonon la comunicación con los pacientes, el más eficaz, eficiente, acelerar el diagnóstico y permiten ofrecer una mejor atención y más eficiente. Los investigadores médicos y de salud en aprovechar los datos para desarrollar nuevos medicamentos, tratamientos y vacunas, para identificar los factores de riesgo de la enfermedad, prevenir, o de acuerdo con las epidemias y difundir el conocimiento para mejorar la salud pública, y extender la longevidad humana.
Sin embargo, el uso de estos datos puede poner en peligro la privacidad de la gente a la que pertenecen. En las últimas décadas, tales como las leyes HIPAA han evolucionado para proteger la privacidad de las personas en los Estados unidos. Otros países han desarrollado sus propias leyes de privacidad de datos, incluyendo Canadá, Australia y la UE (GDPR). Las organizaciones de salud, los profesionales y los investigadores en todos estos países deben cumplir con estas regulaciones para demostrar que toman en serio la privacidad de los pacientes y evitar las consecuencias financieras y jurídicas de su incumplimiento. Para lograr el cumplimiento, eliminar los datos médicos de los pacientes, o la información de salud protegida (PHI) de los pacientes. El deidentificazione también es un requisito para las organizaciones que desean capacitar a sus modelos de aprendizaje de máquina para analizar o procesar los datos en el nivel de la paciente para la investigación o para otros fines.
¿Cuál es la eliminación de la identificación?
La desidentificación es una técnica utilizada para eliminar cualquier dato que pueda identificar a una persona a partir de un conjunto de datos. Es una manera de proteger su información personal que identifica a una persona o una empresa, mediante la eliminación de toda la información de identificación personal, por lo que no es posible regresar a la persona a la que pertenecen los datos. Identificadores personales incluyen:
- Nme y apellido,
- Los datos geográficos, tales como dirección, ciudad y código postal
- Fechas directamente relacionada con un individuo, tales como fecha de nacimiento, fecha de alta, fecha de la muerte, etc.
- Código tributario
- Número de seguro Social
- Los números de teléfono
- Las direcciones de correo electrónico
- Los números de la clínica
- Identificadores biométricos, incluyendo huellas dactilares y huellas de voz
- Fotografías reconocible
- Dirección IP de acceso al sistema
- los números de cuenta bancaria (IBAN)
La desidentificación a veces se utiliza indistintamente con el anonimato, incluso si hay una cierta diferencia:
- el de identificación se trata de la eliminación explícita de los identificadores de personal, por ejemplo, mediante la sustitución de nombre real con los alias de ficticio genérico para diferentes personas, por lo que no es posible asignar de forma inequívoca el paciente a partir de sus datos de identificación.
- l'anónimo se centra en el hecho de que los datos no se puede remontar de nuevo a identificar a un individuo, por ejemplo un código numérico de asociados de forma exclusiva con la persona que es un ejemplo clásico de la transformación de forma anónima, en la que desde el código numérico que se puede con una tabla de la asociación de volver a identificar al paciente..
La importancia de la identificación en el contexto de la salud
En el mundo de hoy, donde hay muchos escándalos acerca de la privacidad, es necesario conocer y comprender la importancia de la identificación de los datos de salud, de hecho, esto garantiza que los datos personales no sean divulgados a terceros o divulgada en forma inadecuada, lo que limita el potencial de daño a la privacidad y la GDPR.
El deidentificazione se ha convertido cada vez más popular después de la entrada en vigor de la GDPR (Reglamento general de protección de datos). Pero hay muchos casos en los que la información personal de salud de las personas que se han comprometido sin su conocimiento (en el caso de violación de datos personales, o "violación de datos"), o sin su consentimiento debido a la falta de medidas de seguridad puestas en marcha por la salud relacionados con las empresas.
Un enfoque tradicional de la identificación de los datos de salud
Tradicionalmente, las organizaciones de salud y los investigadores estaban usando métodos manuales para anonimizar los datos de los pacientes y prepararlos para su posterior procesamiento y análisis. Esto se tradujo en la contratación de un equipo de personas que, visto cada página de un documento por página y línea por línea. Luego de intentar cualquiera de identificación personal que pueda identificar a un individuo, tales como su nombre, dirección, números de teléfono, etc. mediante la eliminación y finalmente manualmente el id de la salud información de identificación.
El límite de este enfoque es que se basa en que el ojo humano y el humano, la atención al detalle. Dado que los seres humanos son falibles, el auditor puede no notar uno o más identificadores de personal y aprobar incorrectamente un documento que no está identificado, y adecuado para su posterior procesamiento y análisis por medio de los modelos de aprendizaje de máquina. Esto no sólo crea riesgos para la privacidad de los individuos, sino que también aumenta el riesgo de incumplimiento de los GDPR. Esto puede crear serios problemas legales y financieros para la organización en cuestión en el caso de las sanciones por el Garante.
Otro límite de la anónima manual de los datos de salud es su lentitud. El sector de la salud a nivel mondaiale produce miles de millones de documentos clínicos y este número está aumentando año tras año. Toda organización de salud es cada año, cientos de miles, si no millones, de los documentos clínicos. Y cada día se crean más y más documentos de este tipo. Con el enfoque tradicional, es imposible revisar y hacer anónima rápidamente todos los datos contenidos en estos documentos para la investigación, los estudios sobre la eficacia, las evaluaciones, las políticas y otros casos de uso.
Enfoques alternativos de identificación
La mayoría de los datos recogidos en diversos contextos y se almacenan en una base de datos relacional, y no es, en el que generalmente hay diferentes tipos de datos, registrados como datos estructurados y no estructurados. Los datos no estructurados, los datos se almacenan generalmente en su formato nativo (por ejemplo, documentos pdf o imágenes en formato DICOM), mientras que los datos estructurados son claramente definidos, codificado, y de búsqueda. Teniendo en cuenta los diferentes tipos de datos a ser procesados, el proceso de deidentificazione debe ser aplicada de forma diferente para cada tipo de datos y puede variar desde la simple ocultación de cifrado o a los procesos más complejos algoritmos de hash o enmascaramiento. El deidentificazione tiene la forma del reconocimiento de las entidades naturales (NER) en PNL y puede ser dividido en las siguientes tres categorías:
- Enfoque basado en reglas: se aplica a la utilización de reglas de coincidencia y diccionarios para anonimizar sus documentos de texto. Aunque este enfoque requiere una gran cantidad de experiencia en el sector y puede ser difícil de manejar, con la deriva de los datos, es muy explicable.
- Enfoque basado en el modelo: Los investigadores utilizan algoritmos de aprendizaje automático para abordar la falta de resiliencia en la regla basada en sistemas. Esto se aplica a la utilización de los modelos ML para anonimizar su texto. Este enfoque se generaliza mejor para tener una mayor precisión y una mejor adquisición de contexto.
- Enfoque híbrido: representa un equilibrio pragmático entre ambos enfoques es recomendable. Los desarrollos recientes en el campo de aprendizaje profundo y la PNL han permitido que los sistemas para la obtención de los mejores resultados, en particular en el campo de nombre de la entidad.