De-identifizierung, gesundheitsdaten
Unsere software für die patientenakten werden deidentifiziert von gesundheitsdaten end-to-end-schlüssel in der hand, ist vollständig anpassbar, bekämpfe effektiv diese herausforderungen mit der macht der verarbeitung natürlicher sprache (NLP).
Einführung
Mit der wachsenden zahl von persönlichen daten, produkte und gespeichert werden, die von organisationen, den datenschutz gewinnt immer mehr priorität. Die daten unterstützen, die für spitzenforschung, innovation fußt und helfen bei der entwicklung von lösungen für probleme der realen welt. Dies gilt insbesondere im gesundheitswesen.
Die richtige art, menge und qualität der digitalisierten daten liefern, die es medizinern wichtige informationen über die patienten, consentonon eine kommunikation mit den patienten effektiver effektiv, beschleunigt die diagnose und ermöglichen die patientenversorgung verbessern und effizienter zu gestalten. Die forscher medizinischen und gesundheitlichen nutzen die daten auch, um die entwicklung neuer medikamente, behandlungen und impfungen, identifizieren sie die risikofaktoren von krankheiten, der verhinderung oder der bekämpfung von epidemien und wissen zu verbreiten, um die öffentliche gesundheit zu verbessern und verlängern die lebensdauer der menschheit.
Jedoch, die verwendung dieser daten kann ein eingriff in die privatsphäre der menschen, zu denen sie gehören. In den letzten jahrzehnten, lesen sie, wie HIPAA wurden entwickelt, um die privatsphäre der menschen in Den vereinigten Staaten. Auch andere länder haben entwickelt die eigenen gesetze zum datenschutz, einschließlich Kanada, Australien und der EU (GDPR). Organisationen im gesundheitswesen, fachkräfte und forscher all dieser länder müssen die einhaltung dieser vorschriften zu zeigen, nehmen ihre privatsphäre ernst der daten der patienten und die vermeidung der wirtschaftlichen und rechtlichen auswirkungen der nichterfüllung. Um compliance zu erreichen, werden die medizinischen daten der patienten, also die geschützte gesundheitsinformationen (PHI) der patienten. Die patientenakten werden deidentifiziert ist auch eine voraussetzung für organisationen, die wollen, zu trainieren, die eigenen modelle von machine learning zu analysieren oder verarbeiten von daten auf der ebene von patienten für untersuchungen oder für andere zwecke.
Was ist die de-identifizierung?
Die de-identifikation ist eine technik, die verwendet wird, um entfernen alle daten, die möglicherweise identifizieren sie eine person aus einer menge von daten. Es ist ein weg, um zu schützen die persönlichen informationen, die sie identifizieren eine person oder ein unternehmen, indem es alle ihre persönlichen informationen, so dass es nicht möglich ist, rückschlüsse auf die person an, zu der die daten gehören. Die individuellen bezeichner sind:
- Nme vor-und nachname,
- Geographische daten, wie adresse, plz und ort
- Termine direkt in bezug auf eine person, wie geburtsdatum, datum der entlassung, datum, tod usw.
- Steuernummer
- Nummer der krankenversicherungskarte
- Telefonnummern
- E-mail-adressen
- Zahlen der krankengeschichte
- Biometrische daten, einschließlich fingerabdrücke und sprachmuster
- Fotos erkennbar
- - IP-adresse am system anmelden
- bankverbindung (IBAN)
Die de-identifikation wird manchmal verwendet, austauschbar mit der anonymisierung, auch wenn es einen gewissen unterschied:
- die de-identifikation beinhaltet die entfernung der ausdrücklichen individuellen bezeichner, beispielsweise, indem vor-und nachname echte von pseudonymen fittizzi allgemein für verschiedene menschen, so dass nicht zuordnen können eindeutig der patient seinen daten, de-identifiziert.
- l'anonymisierung konzentriert sich auf die tatsache, dass von den daten, die man nicht zurückverfolgen kann, zu identifizieren, das individuum, z.b. eine nummer, die eindeutig mit der person verknüpft ist ein klassisches beispiel für die anonymisierung, in denen von der code-nummer können sie mit einer tabelle der verein wieder bei der identifizierung des patienten..
Die bedeutung der de-identifikation im gesundheitswesen
In der welt von heute, wo es viele skandale auf die privatsphäre, müssen sie kennen und verstehen die bedeutung der de-identifizierung, gesundheitsdaten, denn dieser garantiert, dass die daten von einzelpersonen werden nicht an dritte weitergegeben oder ausgesetzt unangemessen, wodurch mögliche schäden an den datenschutz und GDPR.
Die patientenakten werden deidentifiziert, wird immer mehr populär, die nach dem inkrafttreten der GDPR (allgemeine Verordnung über den datenschutz). Aber es gibt viele fälle, in denen die gesundheitsinformationen von menschen manipuliert wurden ohne ihr wissen (im falle einer verletzung personenbezogener daten oder "data breach") oder ohne ihre zustimmung wegen fehlender sicherheitsmaßnahmen umgesetzt, die von unternehmen im gesundheitswesen.
Traditionelle ansatz zur de-identifizierung, gesundheitsdaten
Traditionell, organisationen im gesundheitswesen, und die forscher verwendeten manuellen methoden zu anonymisieren die daten der patienten und bereiten sie für die weitere bearbeitung und analyse. Dies hat dazu geführt, mieten sie ein team von menschen, die esaminassero jedes dokument seite für seite und zeile für zeile. Dann würden sie versuchen, jede persönliche identifikation in der lage, eine person identifiziert, wie vor-und nachname, adresse, telefonnummer, etc. entfernen und schließlich manuell die id von gesundheitsinformationen de-identifiziert.
Die grenze dieses ansatzes ist, dass basiert auf die menschliche auge und die menschliche aufmerksamkeit zu den details. Denn die menschen sind fallibili, der prüfer könnte, nicht zu bemerken, dass eine oder mehrere kennungen für persönliche und genehmigen irrtümlich ein dokument als " nicht identifiziert und geeignet ist, für die weitere bearbeitung und analyse mithilfe von modellen für maschinelles lernen. Dies schafft nicht nur risiken für die privatsphäre der personen, sondern erhöht auch das risiko der nicht-einhaltung der GDPR. Letzteres kann schwerwiegende probleme rechtlichen und finanziellen für die organisation anzuecken im falle von sanktionen des Datenschutzbeauftragten.
Eine andere begrenzung der anonymisierung handbuch von gesundheitsdaten ist seine langsamkeit. Das gesundheitswesen auf der ebene mondaiale produziert milliarden von klinischen dokumenten-und diese zahl steigt von jahr zu jahr. Jede einrichtung ist jedes jahr hunderte von tausenden, wenn nicht millionen von klinischen dokumenten. Und täglich entstehen immer mehr dokumente dieses typs. Mit einem traditionellen ansatz ist es unmöglich, überprüfen und anonymisieren sie schnell alle daten in diesen dokumenten für recherchen, studien über die wirksamkeit, bewertungen, politik und andere anwendungsfälle.
Alternative ansätze zur de-identifikation
Die meisten der gesammelten daten in verschiedenen kontexten gespeichert werden, die auf relationalen datenbank-und nicht, in dem normalerweise gibt es verschiedene arten von aufgezeichneten daten, wie sie strukturierte und unstrukturierte daten. Unstrukturierte daten sind daten in der regel gespeichert, die im systemeigenen format (z. b. pdf-dokumente oder bilder in DICOM-format), während die strukturierten daten sind klar definiert, kodiert und durchsuchbar. In anbetracht der anderen art von daten zu behandeln, den prozess der patientenakten werden deidentifiziert angewendet werden muss, anders für jede art von daten und kann durch einfache verschleierung oder verschlüsselung an komplexere prozesse, wie die hash-oder masquerading. Die patientenakten werden deidentifiziert hat die form der anerkennung in der entität natürliche (NER) in der BSP und kann unterteilt werden in die folgenden drei kategorien:
- Ansatz auf basis von regeln: gilt für die verwendung von regeln, vorlagen und wörterbücher zu anonymisieren, text-dokumente. Obwohl dieser ansatz erfordert sehr viel erfahrung in der branche und kann schwierig sein zu verwalten, mit der drift der daten, ist durchaus erklärbar.
- Modellbasierter ansatz: Die forscher verwenden algorithmen für maschinelles lernen, um gegen die mangelnde belastbarkeit in regelbasierte systeme. Dies gilt für die verwendung von ML-modelle zu anonymisieren, den text. Dieser ansatz verallgemeinern, besser, hat eine höhere genauigkeit und eine bessere erfassung kontextmenü.
- Hybrid-ansatz: ist eine pragmatische balance zwischen beiden ansätzen empfohlen. Die jüngsten entwicklungen im bereich des deep learning und NLP konnten sich die systeme erhalten sie bessere ergebnisse, insbesondere im feld der entität bezeichnet.