De la identificación de los datos de salud

Nuestro software deidentificazione de la salud datos de extremo a extremo de llave en mano, totalmente personalizable, de manera efectiva, aborda estos desafíos con el poder de procesamiento del lenguaje natural (PLN).

Servicios

Introducción

Con el creciente número de datos de carácter personal producida y almacenada por las organizaciones, la privacidad de los datos se está convirtiendo en una prioridad cada vez más importante. Los datos apoyan la investigación de vanguardia, la innovación y ayudar en el desarrollo de soluciones a problemas del mundo real. Esto es particularmente cierto en el sector de la salud.

El tipo, cantidad y calidad de los datos digitalizados, proporcionar a los profesionales de la salud con información crítica acerca de los pacientes, consentonon la comunicación con los pacientes, el más eficaz, eficiente, acelerar el diagnóstico y permiten ofrecer una mejor atención y más eficiente. Los investigadores médicos y de salud en aprovechar los datos para desarrollar nuevos medicamentos, tratamientos y vacunas, para identificar los factores de riesgo de la enfermedad, prevenir, o de acuerdo con las epidemias y difundir el conocimiento para mejorar la salud pública, y extender la longevidad humana.

Sin embargo, el uso de estos datos puede poner en peligro la privacidad de la gente a la que pertenecen. En las últimas décadas, tales como las leyes HIPAA han evolucionado para proteger la privacidad de las personas en los Estados unidos. Otros países han desarrollado sus propias leyes de privacidad de datos, incluyendo Canadá, Australia y la UE (GDPR). Las organizaciones de salud, los profesionales y los investigadores en todos estos países deben cumplir con estas regulaciones para demostrar que toman en serio la privacidad de los pacientes y evitar las consecuencias financieras y jurídicas de su incumplimiento. Para lograr el cumplimiento, eliminar los datos médicos de los pacientes, o la información de salud protegida (PHI) de los pacientes. El deidentificazione también es un requisito para las organizaciones que desean capacitar a sus modelos de aprendizaje de máquina para analizar o procesar los datos en el nivel de la paciente para la investigación o para otros fines.

¿Cuál es la eliminación de la identificación?

La desidentificación es una técnica utilizada para eliminar cualquier dato que pueda identificar a una persona a partir de un conjunto de datos. Es una manera de proteger su información personal que identifica a una persona o una empresa, mediante la eliminación de toda la información de identificación personal, por lo que no es posible regresar a la persona a la que pertenecen los datos. Identificadores personales incluyen:

Nme y apellido,
Los datos geográficos, tales como dirección, ciudad y código postal
Fechas directamente relacionada con un individuo, tales como fecha de nacimiento, fecha de alta, fecha de la muerte, etc.
Código tributario
Número de seguro Social
Los números de teléfono
Las direcciones de correo electrónico
Los números de la clínica
Identificadores biométricos, incluyendo huellas dactilares y huellas de voz
Fotografías reconocible
Dirección IP de acceso al sistema
los números de cuenta bancaria (IBAN)

La desidentificación a veces se utiliza indistintamente con el anonimato, incluso si hay una cierta diferencia:

el de identificación se trata de la eliminación explícita de los identificadores de personal, por ejemplo, mediante la sustitución de nombre real con los alias de ficticio genérico para diferentes personas, por lo que no es posible asignar de forma inequívoca el paciente a partir de sus datos de identificación.
l'anónimo se centra en el hecho de que los datos no se puede remontar de nuevo a identificar a un individuo, por ejemplo un código numérico de asociados de forma exclusiva con la persona que es un ejemplo clásico de la transformación de forma anónima, en la que desde el código numérico que se puede con una tabla de la asociación de volver a identificar al paciente..

La importancia de la identificación en el contexto de la salud

En el mundo de hoy, donde hay muchos escándalos acerca de la privacidad, es necesario conocer y comprender la importancia de la identificación de los datos de salud, de hecho, esto garantiza que los datos personales no sean divulgados a terceros o divulgada en forma inadecuada, lo que limita el potencial de daño a la privacidad y la GDPR.

El deidentificazione se ha convertido cada vez más popular después de la entrada en vigor de la GDPR (Reglamento general de protección de datos). Pero hay muchos casos en los que la información personal de salud de las personas que se han comprometido sin su conocimiento (en el caso de violación de datos personales, o "violación de datos"), o sin su consentimiento debido a la falta de medidas de seguridad puestas en marcha por la salud relacionados con las empresas.

Un enfoque tradicional de la identificación de los datos de salud

Tradicionalmente, las organizaciones de salud y los investigadores estaban usando métodos manuales para anonimizar los datos de los pacientes y prepararlos para su posterior procesamiento y análisis. Esto se tradujo en la contratación de un equipo de personas que, visto cada página de un documento por página y línea por línea. Luego de intentar cualquiera de identificación personal que pueda identificar a un individuo, tales como su nombre, dirección, números de teléfono, etc. mediante la eliminación y finalmente manualmente el id de la salud información de identificación.

El límite de este enfoque es que se basa en que el ojo humano y el humano, la atención al detalle. Dado que los seres humanos son falibles, el auditor puede no notar uno o más identificadores de personal y aprobar incorrectamente un documento que no está identificado, y adecuado para su posterior procesamiento y análisis por medio de los modelos de aprendizaje de máquina. Esto no sólo crea riesgos para la privacidad de los individuos, sino que también aumenta el riesgo de incumplimiento de los GDPR. Esto puede crear serios problemas legales y financieros para la organización en cuestión en el caso de las sanciones por el Garante.

Otro límite de la anónima manual de los datos de salud es su lentitud. El sector de la salud a nivel mondaiale produce miles de millones de documentos clínicos y este número está aumentando año tras año. Toda organización de salud es cada año, cientos de miles, si no millones, de los documentos clínicos. Y cada día se crean más y más documentos de este tipo. Con el enfoque tradicional, es imposible revisar y hacer anónima rápidamente todos los datos contenidos en estos documentos para la investigación, los estudios sobre la eficacia, las evaluaciones, las políticas y otros casos de uso.

Enfoques alternativos de identificación

La mayoría de los datos recogidos en diversos contextos y se almacenan en una base de datos relacional, y no es, en el que generalmente hay diferentes tipos de datos, registrados como datos estructurados y no estructurados. Los datos no estructurados, los datos se almacenan generalmente en su formato nativo (por ejemplo, documentos pdf o imágenes en formato DICOM), mientras que los datos estructurados son claramente definidos, codificado, y de búsqueda. Teniendo en cuenta los diferentes tipos de datos a ser procesados, el proceso de deidentificazione debe ser aplicada de forma diferente para cada tipo de datos y puede variar desde la simple ocultación de cifrado o a los procesos más complejos algoritmos de hash o enmascaramiento. El deidentificazione tiene la forma del reconocimiento de las entidades naturales (NER) en PNL y puede ser dividido en las siguientes tres categorías:

Enfoque basado en reglas: se aplica a la utilización de reglas de coincidencia y diccionarios para anonimizar sus documentos de texto. Aunque este enfoque requiere una gran cantidad de experiencia en el sector y puede ser difícil de manejar, con la deriva de los datos, es muy explicable.
Enfoque basado en el modelo: Los investigadores utilizan algoritmos de aprendizaje automático para abordar la falta de resiliencia en la regla basada en sistemas. Esto se aplica a la utilización de los modelos ML para anonimizar su texto. Este enfoque se generaliza mejor para tener una mayor precisión y una mejor adquisición de contexto.
Enfoque híbrido: representa un equilibrio pragmático entre ambos enfoques es recomendable. Los desarrollos recientes en el campo de aprendizaje profundo y la PNL han permitido que los sistemas para la obtención de los mejores resultados, en particular en el campo de nombre de la entidad.

Inicial

De la identificación de los datos de salud

Nuestro software deidentificazione de la salud datos de extremo a extremo de llave en mano, totalmente personalizable, de manera efectiva, aborda estos desafíos con el poder de procesamiento del lenguaje natural (PLN).

Servicios

Introducción

Con el creciente número de datos de carácter personal producida y almacenada por las organizaciones, la privacidad de los datos se está convirtiendo en una prioridad cada vez más importante. Los datos apoyan la investigación de vanguardia, la innovación y ayudar en el desarrollo de soluciones a problemas del mundo real. Esto es particularmente cierto en el sector de la salud.

El tipo, cantidad y calidad de los datos digitalizados, proporcionar a los profesionales de la salud con información crítica acerca de los pacientes, consentonon la comunicación con los pacientes, el más eficaz, eficiente, acelerar el diagnóstico y permiten ofrecer una mejor atención y más eficiente. Los investigadores médicos y de salud en aprovechar los datos para desarrollar nuevos medicamentos, tratamientos y vacunas, para identificar los factores de riesgo de la enfermedad, prevenir, o de acuerdo con las epidemias y difundir el conocimiento para mejorar la salud pública, y extender la longevidad humana.

Sin embargo, el uso de estos datos puede poner en peligro la privacidad de la gente a la que pertenecen. En las últimas décadas, tales como las leyes HIPAA han evolucionado para proteger la privacidad de las personas en los Estados unidos. Otros países han desarrollado sus propias leyes de privacidad de datos, incluyendo Canadá, Australia y la UE (GDPR). Las organizaciones de salud, los profesionales y los investigadores en todos estos países deben cumplir con estas regulaciones para demostrar que toman en serio la privacidad de los pacientes y evitar las consecuencias financieras y jurídicas de su incumplimiento. Para lograr el cumplimiento, eliminar los datos médicos de los pacientes, o la información de salud protegida (PHI) de los pacientes. El deidentificazione también es un requisito para las organizaciones que desean capacitar a sus modelos de aprendizaje de máquina para analizar o procesar los datos en el nivel de la paciente para la investigación o para otros fines.

¿Cuál es la eliminación de la identificación?

La desidentificación es una técnica utilizada para eliminar cualquier dato que pueda identificar a una persona a partir de un conjunto de datos. Es una manera de proteger su información personal que identifica a una persona o una empresa, mediante la eliminación de toda la información de identificación personal, por lo que no es posible regresar a la persona a la que pertenecen los datos. Identificadores personales incluyen:

Nme y apellido,
Los datos geográficos, tales como dirección, ciudad y código postal
Fechas directamente relacionada con un individuo, tales como fecha de nacimiento, fecha de alta, fecha de la muerte, etc.
Código tributario
Número de seguro Social
Los números de teléfono
Las direcciones de correo electrónico
Los números de la clínica
Identificadores biométricos, incluyendo huellas dactilares y huellas de voz
Fotografías reconocible
Dirección IP de acceso al sistema
los números de cuenta bancaria (IBAN)

La desidentificación a veces se utiliza indistintamente con el anonimato, incluso si hay una cierta diferencia:

el de identificación se trata de la eliminación explícita de los identificadores de personal, por ejemplo, mediante la sustitución de nombre real con los alias de ficticio genérico para diferentes personas, por lo que no es posible asignar de forma inequívoca el paciente a partir de sus datos de identificación.
l'anónimo se centra en el hecho de que los datos no se puede remontar de nuevo a identificar a un individuo, por ejemplo un código numérico de asociados de forma exclusiva con la persona que es un ejemplo clásico de la transformación de forma anónima, en la que desde el código numérico que se puede con una tabla de la asociación de volver a identificar al paciente..

La importancia de la identificación en el contexto de la salud

En el mundo de hoy, donde hay muchos escándalos acerca de la privacidad, es necesario conocer y comprender la importancia de la identificación de los datos de salud, de hecho, esto garantiza que los datos personales no sean divulgados a terceros o divulgada en forma inadecuada, lo que limita el potencial de daño a la privacidad y la GDPR.

El deidentificazione se ha convertido cada vez más popular después de la entrada en vigor de la GDPR (Reglamento general de protección de datos). Pero hay muchos casos en los que la información personal de salud de las personas que se han comprometido sin su conocimiento (en el caso de violación de datos personales, o "violación de datos"), o sin su consentimiento debido a la falta de medidas de seguridad puestas en marcha por la salud relacionados con las empresas.

Un enfoque tradicional de la identificación de los datos de salud

Tradicionalmente, las organizaciones de salud y los investigadores estaban usando métodos manuales para anonimizar los datos de los pacientes y prepararlos para su posterior procesamiento y análisis. Esto se tradujo en la contratación de un equipo de personas que, visto cada página de un documento por página y línea por línea. Luego de intentar cualquiera de identificación personal que pueda identificar a un individuo, tales como su nombre, dirección, números de teléfono, etc. mediante la eliminación y finalmente manualmente el id de la salud información de identificación.

El límite de este enfoque es que se basa en que el ojo humano y el humano, la atención al detalle. Dado que los seres humanos son falibles, el auditor puede no notar uno o más identificadores de personal y aprobar incorrectamente un documento que no está identificado, y adecuado para su posterior procesamiento y análisis por medio de los modelos de aprendizaje de máquina. Esto no sólo crea riesgos para la privacidad de los individuos, sino que también aumenta el riesgo de incumplimiento de los GDPR. Esto puede crear serios problemas legales y financieros para la organización en cuestión en el caso de las sanciones por el Garante.

Otro límite de la anónima manual de los datos de salud es su lentitud. El sector de la salud a nivel mondaiale produce miles de millones de documentos clínicos y este número está aumentando año tras año. Toda organización de salud es cada año, cientos de miles, si no millones, de los documentos clínicos. Y cada día se crean más y más documentos de este tipo. Con el enfoque tradicional, es imposible revisar y hacer anónima rápidamente todos los datos contenidos en estos documentos para la investigación, los estudios sobre la eficacia, las evaluaciones, las políticas y otros casos de uso.

Enfoques alternativos de identificación

La mayoría de los datos recogidos en diversos contextos y se almacenan en una base de datos relacional, y no es, en el que generalmente hay diferentes tipos de datos, registrados como datos estructurados y no estructurados. Los datos no estructurados, los datos se almacenan generalmente en su formato nativo (por ejemplo, documentos pdf o imágenes en formato DICOM), mientras que los datos estructurados son claramente definidos, codificado, y de búsqueda. Teniendo en cuenta los diferentes tipos de datos a ser procesados, el proceso de deidentificazione debe ser aplicada de forma diferente para cada tipo de datos y puede variar desde la simple ocultación de cifrado o a los procesos más complejos algoritmos de hash o enmascaramiento. El deidentificazione tiene la forma del reconocimiento de las entidades naturales (NER) en PNL y puede ser dividido en las siguientes tres categorías:

Enfoque basado en reglas: se aplica a la utilización de reglas de coincidencia y diccionarios para anonimizar sus documentos de texto. Aunque este enfoque requiere una gran cantidad de experiencia en el sector y puede ser difícil de manejar, con la deriva de los datos, es muy explicable.
Enfoque basado en el modelo: Los investigadores utilizan algoritmos de aprendizaje automático para abordar la falta de resiliencia en la regla basada en sistemas. Esto se aplica a la utilización de los modelos ML para anonimizar su texto. Este enfoque se generaliza mejor para tener una mayor precisión y una mejor adquisición de contexto.
Enfoque híbrido: representa un equilibrio pragmático entre ambos enfoques es recomendable. Los desarrollos recientes en el campo de aprendizaje profundo y la PNL han permitido que los sistemas para la obtención de los mejores resultados, en particular en el campo de nombre de la entidad.

Análisis de contexto

Nuestro equipo trabaja en estrecha colaboración con la organización de la salud para la revisión de los requisitos generales, la configuración, la infraestructura, y el anonimato de los datos. Se llevó a cabo un análisis del riesgo legal para comprender los requisitos de la ley aplicable (GDPR, Privacidad, etc). El análisis incluye el tipo de información anonimizar: nombres, números de teléfono, direcciones de correo electrónico y, de origen racial o étnico, etc., y determina cómo quitar los identificadores de los pacientes de identificar.
Determina cómo debe ser presentado en la salida, si los datos no está identificado, debe ser reemplazado, por ejemplo, mediante la adición de nombres al azar a partir de un directorio, para ser reemplazado por un marcador de posición o simplemente eliminados.

La eliminación de identificación

Después de la fase anterior, lo que proporciona una especie de "humana", la siguiente fase se proporciona para el uso del software de la PNL. Aquí está el código y las tuberías están configurados, dependiendo del contexto, mediante el uso de la PNL para quitar los identificadores del paciente y de los profesionales de la salud determinó en el paso anterior.

La medición de los resultados

Esto es otra vez un humano pasaje, en el que el equipo de prueba y medir el rendimiento y la precisión de una muestra de datos. Además, se ejecutan los trabajos, de acuerdo, podemos configurar el muestreo e instalar la plataforma de la limpieza de los datos en el servidor de la granja de servidores del cliente.

Dependiendo de los resultados de este paso, el equipo modificado, si es necesario, la canalización de anonimato que creó en el paso anterior. Si la precisión y el rendimiento de cumplir con los niveles requeridos, el proceso va a paso de anonimización.

De la identificación de los datos

En esta fase, basado en el sistema de la PNL, el equipo gestiona la tubería de identificación que es extremadamente sofisticado para permitir el tratamiento de textos complejos no están estructuradas y las imágenes, eliminando la necesidad de los procesos para acceder al manual, tiempo y sujeto a error humano.

Nuestro sistema de PNL es compatible con muchos tipos de texto no estructurado de identificación, incluyendo

Las mesas están estructurados y de los conjuntos de datos
Documentos a texto libre
Documentos DICOM (digital de Imágenes y comunicaciones en medicina).
PDF escaneados
Los datos de imágenes médicas
Imágenes de la patología, y más

Al final de esta fase en el identificadores del paciente puede realizar las siguientes transformaciones:

Eliminar o reemplazar texto
Ocultar los nombres, lugares, organizaciones, etc.,
Generalizar los códigos, fechas y direcciones de la enfermedad

Los datos de monitoreo de identificación

El servicio de anonimato que no se detiene a la anonimización de los datos. También incluye soporte operativo y mediciones continuas de rendimiento con el fin de mantener la calidad, consistencia y fiabilidad de los resultados deidentificati. En particular, hemos llevado a cabo las siguientes actividades:

Mejorar los modelos de la PNL
Simplificar la respuesta a incidentes
Gestionar las solicitudes de eliminación de GDPR y CCPA
Realizar auditorías de datos y procesos

Análisis de contexto

Nuestro equipo trabaja en estrecha colaboración con la organización de la salud para la revisión de los requisitos generales, la configuración, la infraestructura, y el anonimato de los datos. Se llevó a cabo un análisis del riesgo legal para comprender los requisitos de la ley aplicable (GDPR, Privacidad, etc). El análisis incluye el tipo de información anonimizar: nombres, números de teléfono, direcciones de correo electrónico y, de origen racial o étnico, etc., y determina cómo quitar los identificadores de los pacientes de identificar.
Determina cómo debe ser presentado en la salida, si los datos no está identificado, debe ser reemplazado, por ejemplo, mediante la adición de nombres al azar a partir de un directorio, para ser reemplazado por un marcador de posición o simplemente eliminados.

La eliminación de identificación

Después de la fase anterior, lo que proporciona una especie de "humana", la siguiente fase se proporciona para el uso del software de la PNL. Aquí está el código y las tuberías están configurados, dependiendo del contexto, mediante el uso de la PNL para quitar los identificadores del paciente y de los profesionales de la salud determinó en el paso anterior.

La medición de los resultados

Esto es otra vez un humano pasaje, en el que el equipo de prueba y medir el rendimiento y la precisión de una muestra de datos. Además, se ejecutan los trabajos, de acuerdo, podemos configurar el muestreo e instalar la plataforma de la limpieza de los datos en el servidor de la granja de servidores del cliente.

Dependiendo de los resultados de este paso, el equipo modificado, si es necesario, la canalización de anonimato que creó en el paso anterior. Si la precisión y el rendimiento de cumplir con los niveles requeridos, el proceso va a paso de anonimización.

De la identificación de los datos

En esta fase, basado en el sistema de la PNL, el equipo gestiona la tubería de identificación que es extremadamente sofisticado para permitir el tratamiento de textos complejos no están estructuradas y las imágenes, eliminando la necesidad de los procesos para acceder al manual, tiempo y sujeto a error humano.

Nuestro sistema de PNL es compatible con muchos tipos de texto no estructurado de identificación, incluyendo

Las mesas están estructurados y de los conjuntos de datos
Documentos a texto libre
Documentos DICOM (digital de Imágenes y comunicaciones en medicina).
PDF escaneados
Los datos de imágenes médicas
Imágenes de la patología, y más

Al final de esta fase en el identificadores del paciente puede realizar las siguientes transformaciones:

Eliminar o reemplazar texto
Ocultar los nombres, lugares, organizaciones, etc.,
Generalizar los códigos, fechas y direcciones de la enfermedad

Los datos de monitoreo de identificación

El servicio de anonimato que no se detiene a la anonimización de los datos. También incluye soporte operativo y mediciones continuas de rendimiento con el fin de mantener la calidad, consistencia y fiabilidad de los resultados deidentificati. En particular, hemos llevado a cabo las siguientes actividades:

Mejorar los modelos de la PNL
Simplificar la respuesta a incidentes
Gestionar las solicitudes de eliminación de GDPR y CCPA
Realizar auditorías de datos y procesos

De la identificación de los datos de salud

De la identificación de los datos de salud

Enlaces útiles

Legal y sede operativa

La ubicación Industrial