De l'identification des données de santé

Notre logiciel deidentificazione de la santé des données de bout en bout clé en main, entièrement personnalisable, s'attaque efficacement à ces défis avec la puissance de traitement du langage naturel (NLP).

Services

Introduction

Avec le nombre croissant de données personnelles produites et stockées par les organisations, la confidentialité des données est une priorité croissante. Les données de soutenir la recherche de pointe, de stimuler l'innovation et d'aider dans le développement de solutions aux problèmes du monde réel. Cela est particulièrement vrai dans le secteur de la santé.

Le type, la quantité et la qualité de la numérisation des données, fournir aux professionnels de santé avec des informations critiques sur les patients, consentonon la communication avec les patients la plus efficace, d'accélérer le diagnostic et permettent de fournir des soins de meilleure qualité et plus efficace. Les chercheurs en médecine et les soins de santé exploiter les données pour développer de nouveaux médicaments, de traitements et de vaccins, afin d'identifier les facteurs de risque de la maladie, de prévenir ou de combattre les épidémies et diffuser les connaissances pour améliorer la santé publique, et de prolonger la longévité.

Cependant, l'utilisation de ces données peut compromettre la vie privée des personnes à qui ils appartiennent. Au cours des dernières décennies, les lois, telles que HIPAA ont évolué pour protéger la vie privée des personnes aux États-unis. D'autres pays ont développé leurs propres lois en matière de confidentialité, y compris le Canada, l'Australie et l'UNION européenne (GDPR). Organismes de soins de santé, des professionnels et des chercheurs dans tous ces pays doivent se conformer à ces règlements de montrer que de prendre au sérieux la confidentialité des patients et d'éviter les conséquences financières et juridiques de la non-conformité. Pour atteindre la conformité, de supprimer les données médicales des patients, ou des informations de santé protégées (PHI) de patients. Le deidentificazione est aussi une exigence pour les entreprises qui souhaitent former leurs modèles de l'apprentissage machine pour analyser ou traiter les données au niveau du patient pour la recherche ou à d'autres fins.

Ce qui est de l'identification?

La de-l'identification est une technique utilisée pour supprimer toutes les données qui permettraient d'identifier une personne à partir d'un ensemble de données. C'est une façon de protéger vos renseignements personnels permettant d'identifier un individu ou une entreprise, en éliminant toutes les informations d'identification personnelle, de sorte qu'il n'est pas possible de revenir à la personne à laquelle les données appartiennent. Les identificateurs personnels comprennent:

Nme et le nom de famille,
Données géographiques telles que l'adresse, ville et code postal
Les Dates directement liées à une personne, tels que la date de naissance, date de sortie, date de décès, etc.
Code des impôts
Numéro d'assurance sociale
Les numéros de téléphone
Adresses e-mail
Les numéros de la clinique
Les identifiants biométriques, y compris les empreintes digitales et les empreintes de la voix
Photographies reconnaissable
L'adresse IP de l'accès au système
les numéros de compte bancaire (IBAN)

La de-l'identification est parfois utilisé de façon interchangeable avec la préservation de l'anonymat, même si il y a une certaine différence:

l' de l'identité il s'agit d'enlever explicite identifiants, personnelles, par exemple, en remplaçant le nom réel avec des alias fictif générique pour des gens différents, de sorte que il n'est pas possible d'attribuer sans ambiguïté le patient à partir de ses données dépersonnalisées.
l’anonyme il met l'accent sur le fait que les données ne peuvent pas être retracée à identifier l'individu, par exemple un code numérique unique associée à la personne est un exemple classique de l'anonymat, dans lequel de le code numérique que vous pouvez avec une table de l'association revenir à identifier le patient..

L'importance de l'identification dans le contexte des soins de santé

Dans le monde d'aujourd'hui, où il y a de nombreux scandales sur la vie privée, il est nécessaire de connaître et de comprendre l'importance de la dé-identification des données de santé, en fait, ce qui garantit que les données ne sont pas divulguées à des tiers ou communiquées de manière inappropriée, ce qui limite le potentiel de dommages à la vie privée et le GDPR.

Le deidentificazione est devenu de plus en plus populaire après l'entrée en vigueur de la GDPR (Règlement général sur la protection des données). Mais il y a de nombreux cas dans lesquels les renseignements personnels sur la santé de personnes ont été compromis à leur insu (dans le cas de violation de données à caractère personnel, ou de “violation de données”), ou sans leur consentement en raison du manque de mesures de sécurité mises en place par les entreprises liées à la santé.

Une approche traditionnelle de l'identification des données de santé

Traditionnellement, les organisations de soins de santé et les chercheurs ont été en utilisant des méthodes manuelles d'anonymiser les données des patients et de les préparer pour la suite du traitement et de l'analyse. Ceci a permis le recrutement d'une équipe de personnes, chaque document page par page et ligne par ligne. Ensuite, essayez tout d'identification personnel qui permettent d'identifier un individu, telles que votre nom, adresse, numéros de téléphone, etc. en supprimant et enfin manuellement l'id de l'information sur la santé de-identifiés.

La limite de cette approche est qu'elle repose sur l'œil humain et l'humain, l'attention au détail. Puisque les êtres humains sont faillibles, l'auditeur peut ne pas remarquer un ou plusieurs identificateurs de personnels et d'approuver de manière incorrecte un document n'est pas identifié, et approprié pour la poursuite du traitement et de l'analyse par le biais de modèles de l'apprentissage machine. Non seulement cela crée des risques pour la vie privée des individus, mais augmente également le risque de non-conformité à la GDPR. Cela peut créer de sérieux problèmes juridiques et financiers de l'organisation en question dans le cas de sanctions par le Garant.

Une autre limite de l'anonyme manuel des données de santé est sa lenteur. Le secteur de la santé au niveau mondaiale produit des milliards de documents cliniques et ce nombre est en augmentation année après année. Chaque organisme de soins de santé chaque année, des centaines de milliers, sinon des millions, des documents cliniques. Et sont créés chaque jour de plus en plus de documents de ce type. Avec l'approche traditionnelle, il est impossible de passer en revue et de les rendre anonymes rapidement toutes les données contenues dans ces documents pour la recherche, des études sur l'efficacité, les évaluations, les politiques et les autres cas d'utilisation.

D'autres approches de l'identification

La plupart des données collectées dans les différents contextes sont stockées sur une base de données relationnelle, et n'est pas, à qui d'habitude il y a différents types de données, enregistrées en tant que données structurées et non structurées. Les données non structurées, les données sont généralement stockés dans leur format natif (par exemple des documents pdf ou des images au format DICOM), tandis que les données structurées sont clairement définis, codé, et à la recherche. En considérant les différents type de données à traiter, le processus de deidentificazione doivent être appliquées de manière différente pour chaque type de données et peut varier de la simple dissimulation ou de chiffrement à des processus plus complexes, telles que le hachage ou le masquage. Le deidentificazione a la forme de la reconnaissance des entités naturelles (TNS) en PNL et peut être divisée en trois catégories:

Approche fondée sur des règles: s'applique à l'utilisation de règles de filtrage et de dictionnaires pour anonymiser vos documents texte. Bien que cette approche exige beaucoup d'expérience dans le secteur et peut être difficile à gérer avec la dérive des données, il est tout à fait explicable.
Approche par modèle: Les chercheurs utilisent des algorithmes d'apprentissage automatique pour remédier à l'absence de la résilience dans la règle de base des systèmes. Cela s'applique à l'utilisation de modèles ML pour anonymiser votre texte. Cette approche généralise mieux d'avoir une plus grande précision et un meilleur contexte d'acquisition.
Approche hybride: représente un équilibre pragmatique entre les deux approches est recommandé. Les développements récents dans le domaine de l'apprentissage en profondeur et de la PNL ont permis de systèmes pour obtenir les meilleurs résultats, en particulier dans le domaine de l'entité nommée.

Accueil

De l'identification des données de santé

Notre logiciel deidentificazione de la santé des données de bout en bout clé en main, entièrement personnalisable, s'attaque efficacement à ces défis avec la puissance de traitement du langage naturel (NLP).

Services

Introduction

Avec le nombre croissant de données personnelles produites et stockées par les organisations, la confidentialité des données est une priorité croissante. Les données de soutenir la recherche de pointe, de stimuler l'innovation et d'aider dans le développement de solutions aux problèmes du monde réel. Cela est particulièrement vrai dans le secteur de la santé.

Le type, la quantité et la qualité de la numérisation des données, fournir aux professionnels de santé avec des informations critiques sur les patients, consentonon la communication avec les patients la plus efficace, d'accélérer le diagnostic et permettent de fournir des soins de meilleure qualité et plus efficace. Les chercheurs en médecine et les soins de santé exploiter les données pour développer de nouveaux médicaments, de traitements et de vaccins, afin d'identifier les facteurs de risque de la maladie, de prévenir ou de combattre les épidémies et diffuser les connaissances pour améliorer la santé publique, et de prolonger la longévité.

Cependant, l'utilisation de ces données peut compromettre la vie privée des personnes à qui ils appartiennent. Au cours des dernières décennies, les lois, telles que HIPAA ont évolué pour protéger la vie privée des personnes aux États-unis. D'autres pays ont développé leurs propres lois en matière de confidentialité, y compris le Canada, l'Australie et l'UNION européenne (GDPR). Organismes de soins de santé, des professionnels et des chercheurs dans tous ces pays doivent se conformer à ces règlements de montrer que de prendre au sérieux la confidentialité des patients et d'éviter les conséquences financières et juridiques de la non-conformité. Pour atteindre la conformité, de supprimer les données médicales des patients, ou des informations de santé protégées (PHI) de patients. Le deidentificazione est aussi une exigence pour les entreprises qui souhaitent former leurs modèles de l'apprentissage machine pour analyser ou traiter les données au niveau du patient pour la recherche ou à d'autres fins.

Ce qui est de l'identification?

La de-l'identification est une technique utilisée pour supprimer toutes les données qui permettraient d'identifier une personne à partir d'un ensemble de données. C'est une façon de protéger vos renseignements personnels permettant d'identifier un individu ou une entreprise, en éliminant toutes les informations d'identification personnelle, de sorte qu'il n'est pas possible de revenir à la personne à laquelle les données appartiennent. Les identificateurs personnels comprennent:

Nme et le nom de famille,
Données géographiques telles que l'adresse, ville et code postal
Les Dates directement liées à une personne, tels que la date de naissance, date de sortie, date de décès, etc.
Code des impôts
Numéro d'assurance sociale
Les numéros de téléphone
Adresses e-mail
Les numéros de la clinique
Les identifiants biométriques, y compris les empreintes digitales et les empreintes de la voix
Photographies reconnaissable
L'adresse IP de l'accès au système
les numéros de compte bancaire (IBAN)

La de-l'identification est parfois utilisé de façon interchangeable avec la préservation de l'anonymat, même si il y a une certaine différence:

l' de l'identité il s'agit d'enlever explicite identifiants, personnelles, par exemple, en remplaçant le nom réel avec des alias fictif générique pour des gens différents, de sorte que il n'est pas possible d'attribuer sans ambiguïté le patient à partir de ses données dépersonnalisées.
l’anonyme il met l'accent sur le fait que les données ne peuvent pas être retracée à identifier l'individu, par exemple un code numérique unique associée à la personne est un exemple classique de l'anonymat, dans lequel de le code numérique que vous pouvez avec une table de l'association revenir à identifier le patient..

L'importance de l'identification dans le contexte des soins de santé

Dans le monde d'aujourd'hui, où il y a de nombreux scandales sur la vie privée, il est nécessaire de connaître et de comprendre l'importance de la dé-identification des données de santé, en fait, ce qui garantit que les données ne sont pas divulguées à des tiers ou communiquées de manière inappropriée, ce qui limite le potentiel de dommages à la vie privée et le GDPR.

Le deidentificazione est devenu de plus en plus populaire après l'entrée en vigueur de la GDPR (Règlement général sur la protection des données). Mais il y a de nombreux cas dans lesquels les renseignements personnels sur la santé de personnes ont été compromis à leur insu (dans le cas de violation de données à caractère personnel, ou de “violation de données”), ou sans leur consentement en raison du manque de mesures de sécurité mises en place par les entreprises liées à la santé.

Une approche traditionnelle de l'identification des données de santé

Traditionnellement, les organisations de soins de santé et les chercheurs ont été en utilisant des méthodes manuelles d'anonymiser les données des patients et de les préparer pour la suite du traitement et de l'analyse. Ceci a permis le recrutement d'une équipe de personnes, chaque document page par page et ligne par ligne. Ensuite, essayez tout d'identification personnel qui permettent d'identifier un individu, telles que votre nom, adresse, numéros de téléphone, etc. en supprimant et enfin manuellement l'id de l'information sur la santé de-identifiés.

La limite de cette approche est qu'elle repose sur l'œil humain et l'humain, l'attention au détail. Puisque les êtres humains sont faillibles, l'auditeur peut ne pas remarquer un ou plusieurs identificateurs de personnels et d'approuver de manière incorrecte un document n'est pas identifié, et approprié pour la poursuite du traitement et de l'analyse par le biais de modèles de l'apprentissage machine. Non seulement cela crée des risques pour la vie privée des individus, mais augmente également le risque de non-conformité à la GDPR. Cela peut créer de sérieux problèmes juridiques et financiers de l'organisation en question dans le cas de sanctions par le Garant.

Une autre limite de l'anonyme manuel des données de santé est sa lenteur. Le secteur de la santé au niveau mondaiale produit des milliards de documents cliniques et ce nombre est en augmentation année après année. Chaque organisme de soins de santé chaque année, des centaines de milliers, sinon des millions, des documents cliniques. Et sont créés chaque jour de plus en plus de documents de ce type. Avec l'approche traditionnelle, il est impossible de passer en revue et de les rendre anonymes rapidement toutes les données contenues dans ces documents pour la recherche, des études sur l'efficacité, les évaluations, les politiques et les autres cas d'utilisation.

D'autres approches de l'identification

La plupart des données collectées dans les différents contextes sont stockées sur une base de données relationnelle, et n'est pas, à qui d'habitude il y a différents types de données, enregistrées en tant que données structurées et non structurées. Les données non structurées, les données sont généralement stockés dans leur format natif (par exemple des documents pdf ou des images au format DICOM), tandis que les données structurées sont clairement définis, codé, et à la recherche. En considérant les différents type de données à traiter, le processus de deidentificazione doivent être appliquées de manière différente pour chaque type de données et peut varier de la simple dissimulation ou de chiffrement à des processus plus complexes, telles que le hachage ou le masquage. Le deidentificazione a la forme de la reconnaissance des entités naturelles (TNS) en PNL et peut être divisée en trois catégories:

Approche fondée sur des règles: s'applique à l'utilisation de règles de filtrage et de dictionnaires pour anonymiser vos documents texte. Bien que cette approche exige beaucoup d'expérience dans le secteur et peut être difficile à gérer avec la dérive des données, il est tout à fait explicable.
Approche par modèle: Les chercheurs utilisent des algorithmes d'apprentissage automatique pour remédier à l'absence de la résilience dans la règle de base des systèmes. Cela s'applique à l'utilisation de modèles ML pour anonymiser votre texte. Cette approche généralise mieux d'avoir une plus grande précision et un meilleur contexte d'acquisition.
Approche hybride: représente un équilibre pragmatique entre les deux approches est recommandé. Les développements récents dans le domaine de l'apprentissage en profondeur et de la PNL ont permis de systèmes pour obtenir les meilleurs résultats, en particulier dans le domaine de l'entité nommée.

L'analyse du contexte

Notre équipe travaille en étroite collaboration avec l'organisation de la santé pour examiner les exigences générales, de la configuration, de l'infrastructure, et l'anonymisation des données. Il est procédé à une analyse du risque juridique pour comprendre les exigences de la loi applicable (GDPR, vie privée, etc). L'analyse comprend le type d'informations à anonymiser: noms, numéros de téléphone, les adresses postales et électroniques, la race ou l'origine ethnique, etc., et détermine comment faire pour supprimer les identifiants des patients de l'identifier.
Détermine la façon dont il doit être présenté dans la sortie, si les données n'est pas identifié, il doit être remplacé, par exemple, par l'ajout de noms aléatoires à partir d'un répertoire, pour être remplacé par un espace réservé, ou tout simplement supprimés.

Suppression de l'identification

Après la phase précédente, qui fournit une sorte de “l'humain”, la prochaine phase prévoit l'utilisation du logiciel de la PNL. Voici le code et les pipelines sont configurés, selon le contexte, par l'aide de la PNL pour supprimer les identifiants du patient et les professionnels de la santé déterminée à l'étape précédente.

Mesure des résultats

C'est de nouveau un homme de passage, dans lequel l'équipe de test et de mesure de la performance et de la précision d'un échantillon de données. En outre, les tâches sont exécutées, d'accord, nous avons mis l'échantillonnage et d'installer la plate-forme pour le nettoyage des données dans le serveur de la ferme de la clientèle.

Selon les résultats de cette étape, l'équipe modifiées, si nécessaire, le pipeline d'anonymisation créé à l'étape précédente. Si la précision et la performance atteint les niveaux requis, le processus passe à l'étape d'anonymisation.

De l'identification des données

Dans cette phase, basée sur le système de la PNL, l'équipe gère le pipeline de l'identification qui est extrêmement sophistiqué pour permettre le traitement de textes complexes ne sont pas structurés et des images, éliminant ainsi la nécessité pour le processus d'accès au manuel, long et sujet à l'erreur humaine.

Notre système de PNL prend en charge de nombreux types de texte non structuré de l'identification, notamment

Les tableaux sont structurés et des ensembles de données
Documents de texte libre
Documents (DICOM de l'Imagerie numérique et les communications in medicine).
Le fichier PDF numérisé
Les données de l'imagerie médicale
Les Images de la pathologie, et plus

À la fin de cette phase sur les identifiants du patient peut effectuer les transformations suivantes:

Supprimer ou remplacer du texte
Dissimuler les noms, lieux, organisations, etc.,
Généraliser les codes, les dates et les adresses de la maladie

Les données de surveillance est de

Le service d'anonymisation ne s'arrête pas à l'anonymisation des données. Il comprend également un soutien opérationnel et mesures en continu de la performance afin de maintenir la qualité, la cohérence et la fiabilité des résultats deidentificati. En particulier, nous avons mené les activités suivantes:

Améliorer les modèles de la PNL
Simplifier la réponse à l'incident
Gérer les demandes de retrait GDPR et de l'ACCP
Effectuer les vérifications des données et des processus

L'analyse du contexte

Notre équipe travaille en étroite collaboration avec l'organisation de la santé pour examiner les exigences générales, de la configuration, de l'infrastructure, et l'anonymisation des données. Il est procédé à une analyse du risque juridique pour comprendre les exigences de la loi applicable (GDPR, vie privée, etc). L'analyse comprend le type d'informations à anonymiser: noms, numéros de téléphone, les adresses postales et électroniques, la race ou l'origine ethnique, etc., et détermine comment faire pour supprimer les identifiants des patients de l'identifier.
Détermine la façon dont il doit être présenté dans la sortie, si les données n'est pas identifié, il doit être remplacé, par exemple, par l'ajout de noms aléatoires à partir d'un répertoire, pour être remplacé par un espace réservé, ou tout simplement supprimés.

Suppression de l'identification

Après la phase précédente, qui fournit une sorte de “l'humain”, la prochaine phase prévoit l'utilisation du logiciel de la PNL. Voici le code et les pipelines sont configurés, selon le contexte, par l'aide de la PNL pour supprimer les identifiants du patient et les professionnels de la santé déterminée à l'étape précédente.

Mesure des résultats

C'est de nouveau un homme de passage, dans lequel l'équipe de test et de mesure de la performance et de la précision d'un échantillon de données. En outre, les tâches sont exécutées, d'accord, nous avons mis l'échantillonnage et d'installer la plate-forme pour le nettoyage des données dans le serveur de la ferme de la clientèle.

Selon les résultats de cette étape, l'équipe modifiées, si nécessaire, le pipeline d'anonymisation créé à l'étape précédente. Si la précision et la performance atteint les niveaux requis, le processus passe à l'étape d'anonymisation.

De l'identification des données

Dans cette phase, basée sur le système de la PNL, l'équipe gère le pipeline de l'identification qui est extrêmement sophistiqué pour permettre le traitement de textes complexes ne sont pas structurés et des images, éliminant ainsi la nécessité pour le processus d'accès au manuel, long et sujet à l'erreur humaine.

Notre système de PNL prend en charge de nombreux types de texte non structuré de l'identification, notamment

Les tableaux sont structurés et des ensembles de données
Documents de texte libre
Documents (DICOM de l'Imagerie numérique et les communications in medicine).
Le fichier PDF numérisé
Les données de l'imagerie médicale
Les Images de la pathologie, et plus

À la fin de cette phase sur les identifiants du patient peut effectuer les transformations suivantes:

Supprimer ou remplacer du texte
Dissimuler les noms, lieux, organisations, etc.,
Généraliser les codes, les dates et les adresses de la maladie

Les données de surveillance est de

Le service d'anonymisation ne s'arrête pas à l'anonymisation des données. Il comprend également un soutien opérationnel et mesures en continu de la performance afin de maintenir la qualité, la cohérence et la fiabilité des résultats deidentificati. En particulier, nous avons mené les activités suivantes:

Améliorer les modèles de la PNL
Simplifier la réponse à l'incident
Gérer les demandes de retrait GDPR et de l'ACCP
Effectuer les vérifications des données et des processus

De l'identification des données de santé

De l'identification des données de santé

Liens utiles

Juridique et du siège d'exploitation

La localisation des industries