De l'identification des données de santé
Notre logiciel deidentificazione de la santé des données de bout en bout clé en main, entièrement personnalisable, s'attaque efficacement à ces défis avec la puissance de traitement du langage naturel (NLP).
Introduction
Avec le nombre croissant de données personnelles produites et stockées par les organisations, la confidentialité des données est une priorité croissante. Les données de soutenir la recherche de pointe, de stimuler l'innovation et d'aider dans le développement de solutions aux problèmes du monde réel. Cela est particulièrement vrai dans le secteur de la santé.
Le type, la quantité et la qualité de la numérisation des données, fournir aux professionnels de santé avec des informations critiques sur les patients, consentonon la communication avec les patients la plus efficace, d'accélérer le diagnostic et permettent de fournir des soins de meilleure qualité et plus efficace. Les chercheurs en médecine et les soins de santé exploiter les données pour développer de nouveaux médicaments, de traitements et de vaccins, afin d'identifier les facteurs de risque de la maladie, de prévenir ou de combattre les épidémies et diffuser les connaissances pour améliorer la santé publique, et de prolonger la longévité.
Cependant, l'utilisation de ces données peut compromettre la vie privée des personnes à qui ils appartiennent. Au cours des dernières décennies, les lois, telles que HIPAA ont évolué pour protéger la vie privée des personnes aux États-unis. D'autres pays ont développé leurs propres lois en matière de confidentialité, y compris le Canada, l'Australie et l'UNION européenne (GDPR). Organismes de soins de santé, des professionnels et des chercheurs dans tous ces pays doivent se conformer à ces règlements de montrer que de prendre au sérieux la confidentialité des patients et d'éviter les conséquences financières et juridiques de la non-conformité. Pour atteindre la conformité, de supprimer les données médicales des patients, ou des informations de santé protégées (PHI) de patients. Le deidentificazione est aussi une exigence pour les entreprises qui souhaitent former leurs modèles de l'apprentissage machine pour analyser ou traiter les données au niveau du patient pour la recherche ou à d'autres fins.
Ce qui est de l'identification?
La de-l'identification est une technique utilisée pour supprimer toutes les données qui permettraient d'identifier une personne à partir d'un ensemble de données. C'est une façon de protéger vos renseignements personnels permettant d'identifier un individu ou une entreprise, en éliminant toutes les informations d'identification personnelle, de sorte qu'il n'est pas possible de revenir à la personne à laquelle les données appartiennent. Les identificateurs personnels comprennent:
- Nme et le nom de famille,
- Données géographiques telles que l'adresse, ville et code postal
- Les Dates directement liées à une personne, tels que la date de naissance, date de sortie, date de décès, etc.
- Code des impôts
- Numéro d'assurance sociale
- Les numéros de téléphone
- Adresses e-mail
- Les numéros de la clinique
- Les identifiants biométriques, y compris les empreintes digitales et les empreintes de la voix
- Photographies reconnaissable
- L'adresse IP de l'accès au système
- les numéros de compte bancaire (IBAN)
La de-l'identification est parfois utilisé de façon interchangeable avec la préservation de l'anonymat, même si il y a une certaine différence:
- l' de l'identité il s'agit d'enlever explicite identifiants, personnelles, par exemple, en remplaçant le nom réel avec des alias fictif générique pour des gens différents, de sorte que il n'est pas possible d'attribuer sans ambiguïté le patient à partir de ses données dépersonnalisées.
- l’anonyme il met l'accent sur le fait que les données ne peuvent pas être retracée à identifier l'individu, par exemple un code numérique unique associée à la personne est un exemple classique de l'anonymat, dans lequel de le code numérique que vous pouvez avec une table de l'association revenir à identifier le patient..
L'importance de l'identification dans le contexte des soins de santé
Dans le monde d'aujourd'hui, où il y a de nombreux scandales sur la vie privée, il est nécessaire de connaître et de comprendre l'importance de la dé-identification des données de santé, en fait, ce qui garantit que les données ne sont pas divulguées à des tiers ou communiquées de manière inappropriée, ce qui limite le potentiel de dommages à la vie privée et le GDPR.
Le deidentificazione est devenu de plus en plus populaire après l'entrée en vigueur de la GDPR (Règlement général sur la protection des données). Mais il y a de nombreux cas dans lesquels les renseignements personnels sur la santé de personnes ont été compromis à leur insu (dans le cas de violation de données à caractère personnel, ou de “violation de données”), ou sans leur consentement en raison du manque de mesures de sécurité mises en place par les entreprises liées à la santé.
Une approche traditionnelle de l'identification des données de santé
Traditionnellement, les organisations de soins de santé et les chercheurs ont été en utilisant des méthodes manuelles d'anonymiser les données des patients et de les préparer pour la suite du traitement et de l'analyse. Ceci a permis le recrutement d'une équipe de personnes, chaque document page par page et ligne par ligne. Ensuite, essayez tout d'identification personnel qui permettent d'identifier un individu, telles que votre nom, adresse, numéros de téléphone, etc. en supprimant et enfin manuellement l'id de l'information sur la santé de-identifiés.
La limite de cette approche est qu'elle repose sur l'œil humain et l'humain, l'attention au détail. Puisque les êtres humains sont faillibles, l'auditeur peut ne pas remarquer un ou plusieurs identificateurs de personnels et d'approuver de manière incorrecte un document n'est pas identifié, et approprié pour la poursuite du traitement et de l'analyse par le biais de modèles de l'apprentissage machine. Non seulement cela crée des risques pour la vie privée des individus, mais augmente également le risque de non-conformité à la GDPR. Cela peut créer de sérieux problèmes juridiques et financiers de l'organisation en question dans le cas de sanctions par le Garant.
Une autre limite de l'anonyme manuel des données de santé est sa lenteur. Le secteur de la santé au niveau mondaiale produit des milliards de documents cliniques et ce nombre est en augmentation année après année. Chaque organisme de soins de santé chaque année, des centaines de milliers, sinon des millions, des documents cliniques. Et sont créés chaque jour de plus en plus de documents de ce type. Avec l'approche traditionnelle, il est impossible de passer en revue et de les rendre anonymes rapidement toutes les données contenues dans ces documents pour la recherche, des études sur l'efficacité, les évaluations, les politiques et les autres cas d'utilisation.
D'autres approches de l'identification
La plupart des données collectées dans les différents contextes sont stockées sur une base de données relationnelle, et n'est pas, à qui d'habitude il y a différents types de données, enregistrées en tant que données structurées et non structurées. Les données non structurées, les données sont généralement stockés dans leur format natif (par exemple des documents pdf ou des images au format DICOM), tandis que les données structurées sont clairement définis, codé, et à la recherche. En considérant les différents type de données à traiter, le processus de deidentificazione doivent être appliquées de manière différente pour chaque type de données et peut varier de la simple dissimulation ou de chiffrement à des processus plus complexes, telles que le hachage ou le masquage. Le deidentificazione a la forme de la reconnaissance des entités naturelles (TNS) en PNL et peut être divisée en trois catégories:
- Approche fondée sur des règles: s'applique à l'utilisation de règles de filtrage et de dictionnaires pour anonymiser vos documents texte. Bien que cette approche exige beaucoup d'expérience dans le secteur et peut être difficile à gérer avec la dérive des données, il est tout à fait explicable.
- Approche par modèle: Les chercheurs utilisent des algorithmes d'apprentissage automatique pour remédier à l'absence de la résilience dans la règle de base des systèmes. Cela s'applique à l'utilisation de modèles ML pour anonymiser votre texte. Cette approche généralise mieux d'avoir une plus grande précision et un meilleur contexte d'acquisition.
- Approche hybride: représente un équilibre pragmatique entre les deux approches est recommandé. Les développements récents dans le domaine de l'apprentissage en profondeur et de la PNL ont permis de systèmes pour obtenir les meilleurs résultats, en particulier dans le domaine de l'entité nommée.