De-identifizierung, gesundheitsdaten

Unsere software für die patientenakten werden deidentifiziert von gesundheitsdaten end-to-end-schlüssel in der hand, ist vollständig anpassbar, bekämpfe effektiv diese herausforderungen mit der macht der verarbeitung natürlicher sprache (NLP).

Dienstleistungen

Einführung

Mit der wachsenden zahl von persönlichen daten, produkte und gespeichert werden, die von organisationen, den datenschutz gewinnt immer mehr priorität. Die daten unterstützen, die für spitzenforschung, innovation fußt und helfen bei der entwicklung von lösungen für probleme der realen welt. Dies gilt insbesondere im gesundheitswesen.

Die richtige art, menge und qualität der digitalisierten daten liefern, die es medizinern wichtige informationen über die patienten, consentonon eine kommunikation mit den patienten effektiver effektiv, beschleunigt die diagnose und ermöglichen die patientenversorgung verbessern und effizienter zu gestalten. Die forscher medizinischen und gesundheitlichen nutzen die daten auch, um die entwicklung neuer medikamente, behandlungen und impfungen, identifizieren sie die risikofaktoren von krankheiten, der verhinderung oder der bekämpfung von epidemien und wissen zu verbreiten, um die öffentliche gesundheit zu verbessern und verlängern die lebensdauer der menschheit.

Jedoch, die verwendung dieser daten kann ein eingriff in die privatsphäre der menschen, zu denen sie gehören. In den letzten jahrzehnten, lesen sie, wie HIPAA wurden entwickelt, um die privatsphäre der menschen in Den vereinigten Staaten. Auch andere länder haben entwickelt die eigenen gesetze zum datenschutz, einschließlich Kanada, Australien und der EU (GDPR). Organisationen im gesundheitswesen, fachkräfte und forscher all dieser länder müssen die einhaltung dieser vorschriften zu zeigen, nehmen ihre privatsphäre ernst der daten der patienten und die vermeidung der wirtschaftlichen und rechtlichen auswirkungen der nichterfüllung. Um compliance zu erreichen, werden die medizinischen daten der patienten, also die geschützte gesundheitsinformationen (PHI) der patienten. Die patientenakten werden deidentifiziert ist auch eine voraussetzung für organisationen, die wollen, zu trainieren, die eigenen modelle von machine learning zu analysieren oder verarbeiten von daten auf der ebene von patienten für untersuchungen oder für andere zwecke.

Was ist die de-identifizierung?

Die de-identifikation ist eine technik, die verwendet wird, um entfernen alle daten, die möglicherweise identifizieren sie eine person aus einer menge von daten. Es ist ein weg, um zu schützen die persönlichen informationen, die sie identifizieren eine person oder ein unternehmen, indem es alle ihre persönlichen informationen, so dass es nicht möglich ist, rückschlüsse auf die person an, zu der die daten gehören. Die individuellen bezeichner sind:

Nme vor-und nachname,
Geographische daten, wie adresse, plz und ort
Termine direkt in bezug auf eine person, wie geburtsdatum, datum der entlassung, datum, tod usw.
Steuernummer
Nummer der krankenversicherungskarte
Telefonnummern
E-mail-adressen
Zahlen der krankengeschichte
Biometrische daten, einschließlich fingerabdrücke und sprachmuster
Fotos erkennbar
- IP-adresse am system anmelden
bankverbindung (IBAN)

Die de-identifikation wird manchmal verwendet, austauschbar mit der anonymisierung, auch wenn es einen gewissen unterschied:

die de-identifikation beinhaltet die entfernung der ausdrücklichen individuellen bezeichner, beispielsweise, indem vor-und nachname echte von pseudonymen fittizzi allgemein für verschiedene menschen, so dass nicht zuordnen können eindeutig der patient seinen daten, de-identifiziert.
l'anonymisierung konzentriert sich auf die tatsache, dass von den daten, die man nicht zurückverfolgen kann, zu identifizieren, das individuum, z.b. eine nummer, die eindeutig mit der person verknüpft ist ein klassisches beispiel für die anonymisierung, in denen von der code-nummer können sie mit einer tabelle der verein wieder bei der identifizierung des patienten..

Die bedeutung der de-identifikation im gesundheitswesen

In der welt von heute, wo es viele skandale auf die privatsphäre, müssen sie kennen und verstehen die bedeutung der de-identifizierung, gesundheitsdaten, denn dieser garantiert, dass die daten von einzelpersonen werden nicht an dritte weitergegeben oder ausgesetzt unangemessen, wodurch mögliche schäden an den datenschutz und GDPR.

Die patientenakten werden deidentifiziert, wird immer mehr populär, die nach dem inkrafttreten der GDPR (allgemeine Verordnung über den datenschutz). Aber es gibt viele fälle, in denen die gesundheitsinformationen von menschen manipuliert wurden ohne ihr wissen (im falle einer verletzung personenbezogener daten oder "data breach") oder ohne ihre zustimmung wegen fehlender sicherheitsmaßnahmen umgesetzt, die von unternehmen im gesundheitswesen.

Traditionelle ansatz zur de-identifizierung, gesundheitsdaten

Traditionell, organisationen im gesundheitswesen, und die forscher verwendeten manuellen methoden zu anonymisieren die daten der patienten und bereiten sie für die weitere bearbeitung und analyse. Dies hat dazu geführt, mieten sie ein team von menschen, die esaminassero jedes dokument seite für seite und zeile für zeile. Dann würden sie versuchen, jede persönliche identifikation in der lage, eine person identifiziert, wie vor-und nachname, adresse, telefonnummer, etc. entfernen und schließlich manuell die id von gesundheitsinformationen de-identifiziert.

Die grenze dieses ansatzes ist, dass basiert auf die menschliche auge und die menschliche aufmerksamkeit zu den details. Denn die menschen sind fallibili, der prüfer könnte, nicht zu bemerken, dass eine oder mehrere kennungen für persönliche und genehmigen irrtümlich ein dokument als " nicht identifiziert und geeignet ist, für die weitere bearbeitung und analyse mithilfe von modellen für maschinelles lernen. Dies schafft nicht nur risiken für die privatsphäre der personen, sondern erhöht auch das risiko der nicht-einhaltung der GDPR. Letzteres kann schwerwiegende probleme rechtlichen und finanziellen für die organisation anzuecken im falle von sanktionen des Datenschutzbeauftragten.

Eine andere begrenzung der anonymisierung handbuch von gesundheitsdaten ist seine langsamkeit. Das gesundheitswesen auf der ebene mondaiale produziert milliarden von klinischen dokumenten-und diese zahl steigt von jahr zu jahr. Jede einrichtung ist jedes jahr hunderte von tausenden, wenn nicht millionen von klinischen dokumenten. Und täglich entstehen immer mehr dokumente dieses typs. Mit einem traditionellen ansatz ist es unmöglich, überprüfen und anonymisieren sie schnell alle daten in diesen dokumenten für recherchen, studien über die wirksamkeit, bewertungen, politik und andere anwendungsfälle.

Alternative ansätze zur de-identifikation

Die meisten der gesammelten daten in verschiedenen kontexten gespeichert werden, die auf relationalen datenbank-und nicht, in dem normalerweise gibt es verschiedene arten von aufgezeichneten daten, wie sie strukturierte und unstrukturierte daten. Unstrukturierte daten sind daten in der regel gespeichert, die im systemeigenen format (z. b. pdf-dokumente oder bilder in DICOM-format), während die strukturierten daten sind klar definiert, kodiert und durchsuchbar. In anbetracht der anderen art von daten zu behandeln, den prozess der patientenakten werden deidentifiziert angewendet werden muss, anders für jede art von daten und kann durch einfache verschleierung oder verschlüsselung an komplexere prozesse, wie die hash-oder masquerading. Die patientenakten werden deidentifiziert hat die form der anerkennung in der entität natürliche (NER) in der BSP und kann unterteilt werden in die folgenden drei kategorien:

Ansatz auf basis von regeln: gilt für die verwendung von regeln, vorlagen und wörterbücher zu anonymisieren, text-dokumente. Obwohl dieser ansatz erfordert sehr viel erfahrung in der branche und kann schwierig sein zu verwalten, mit der drift der daten, ist durchaus erklärbar.
Modellbasierter ansatz: Die forscher verwenden algorithmen für maschinelles lernen, um gegen die mangelnde belastbarkeit in regelbasierte systeme. Dies gilt für die verwendung von ML-modelle zu anonymisieren, den text. Dieser ansatz verallgemeinern, besser, hat eine höhere genauigkeit und eine bessere erfassung kontextmenü.
Hybrid-ansatz: ist eine pragmatische balance zwischen beiden ansätzen empfohlen. Die jüngsten entwicklungen im bereich des deep learning und NLP konnten sich die systeme erhalten sie bessere ergebnisse, insbesondere im feld der entität bezeichnet.

Home

De-identifizierung, gesundheitsdaten

Unsere software für die patientenakten werden deidentifiziert von gesundheitsdaten end-to-end-schlüssel in der hand, ist vollständig anpassbar, bekämpfe effektiv diese herausforderungen mit der macht der verarbeitung natürlicher sprache (NLP).

Dienstleistungen

Einführung

Mit der wachsenden zahl von persönlichen daten, produkte und gespeichert werden, die von organisationen, den datenschutz gewinnt immer mehr priorität. Die daten unterstützen, die für spitzenforschung, innovation fußt und helfen bei der entwicklung von lösungen für probleme der realen welt. Dies gilt insbesondere im gesundheitswesen.

Die richtige art, menge und qualität der digitalisierten daten liefern, die es medizinern wichtige informationen über die patienten, consentonon eine kommunikation mit den patienten effektiver effektiv, beschleunigt die diagnose und ermöglichen die patientenversorgung verbessern und effizienter zu gestalten. Die forscher medizinischen und gesundheitlichen nutzen die daten auch, um die entwicklung neuer medikamente, behandlungen und impfungen, identifizieren sie die risikofaktoren von krankheiten, der verhinderung oder der bekämpfung von epidemien und wissen zu verbreiten, um die öffentliche gesundheit zu verbessern und verlängern die lebensdauer der menschheit.

Jedoch, die verwendung dieser daten kann ein eingriff in die privatsphäre der menschen, zu denen sie gehören. In den letzten jahrzehnten, lesen sie, wie HIPAA wurden entwickelt, um die privatsphäre der menschen in Den vereinigten Staaten. Auch andere länder haben entwickelt die eigenen gesetze zum datenschutz, einschließlich Kanada, Australien und der EU (GDPR). Organisationen im gesundheitswesen, fachkräfte und forscher all dieser länder müssen die einhaltung dieser vorschriften zu zeigen, nehmen ihre privatsphäre ernst der daten der patienten und die vermeidung der wirtschaftlichen und rechtlichen auswirkungen der nichterfüllung. Um compliance zu erreichen, werden die medizinischen daten der patienten, also die geschützte gesundheitsinformationen (PHI) der patienten. Die patientenakten werden deidentifiziert ist auch eine voraussetzung für organisationen, die wollen, zu trainieren, die eigenen modelle von machine learning zu analysieren oder verarbeiten von daten auf der ebene von patienten für untersuchungen oder für andere zwecke.

Was ist die de-identifizierung?

Die de-identifikation ist eine technik, die verwendet wird, um entfernen alle daten, die möglicherweise identifizieren sie eine person aus einer menge von daten. Es ist ein weg, um zu schützen die persönlichen informationen, die sie identifizieren eine person oder ein unternehmen, indem es alle ihre persönlichen informationen, so dass es nicht möglich ist, rückschlüsse auf die person an, zu der die daten gehören. Die individuellen bezeichner sind:

Nme vor-und nachname,
Geographische daten, wie adresse, plz und ort
Termine direkt in bezug auf eine person, wie geburtsdatum, datum der entlassung, datum, tod usw.
Steuernummer
Nummer der krankenversicherungskarte
Telefonnummern
E-mail-adressen
Zahlen der krankengeschichte
Biometrische daten, einschließlich fingerabdrücke und sprachmuster
Fotos erkennbar
- IP-adresse am system anmelden
bankverbindung (IBAN)

Die de-identifikation wird manchmal verwendet, austauschbar mit der anonymisierung, auch wenn es einen gewissen unterschied:

die de-identifikation beinhaltet die entfernung der ausdrücklichen individuellen bezeichner, beispielsweise, indem vor-und nachname echte von pseudonymen fittizzi allgemein für verschiedene menschen, so dass nicht zuordnen können eindeutig der patient seinen daten, de-identifiziert.
l'anonymisierung konzentriert sich auf die tatsache, dass von den daten, die man nicht zurückverfolgen kann, zu identifizieren, das individuum, z.b. eine nummer, die eindeutig mit der person verknüpft ist ein klassisches beispiel für die anonymisierung, in denen von der code-nummer können sie mit einer tabelle der verein wieder bei der identifizierung des patienten..

Die bedeutung der de-identifikation im gesundheitswesen

In der welt von heute, wo es viele skandale auf die privatsphäre, müssen sie kennen und verstehen die bedeutung der de-identifizierung, gesundheitsdaten, denn dieser garantiert, dass die daten von einzelpersonen werden nicht an dritte weitergegeben oder ausgesetzt unangemessen, wodurch mögliche schäden an den datenschutz und GDPR.

Die patientenakten werden deidentifiziert, wird immer mehr populär, die nach dem inkrafttreten der GDPR (allgemeine Verordnung über den datenschutz). Aber es gibt viele fälle, in denen die gesundheitsinformationen von menschen manipuliert wurden ohne ihr wissen (im falle einer verletzung personenbezogener daten oder "data breach") oder ohne ihre zustimmung wegen fehlender sicherheitsmaßnahmen umgesetzt, die von unternehmen im gesundheitswesen.

Traditionelle ansatz zur de-identifizierung, gesundheitsdaten

Traditionell, organisationen im gesundheitswesen, und die forscher verwendeten manuellen methoden zu anonymisieren die daten der patienten und bereiten sie für die weitere bearbeitung und analyse. Dies hat dazu geführt, mieten sie ein team von menschen, die esaminassero jedes dokument seite für seite und zeile für zeile. Dann würden sie versuchen, jede persönliche identifikation in der lage, eine person identifiziert, wie vor-und nachname, adresse, telefonnummer, etc. entfernen und schließlich manuell die id von gesundheitsinformationen de-identifiziert.

Die grenze dieses ansatzes ist, dass basiert auf die menschliche auge und die menschliche aufmerksamkeit zu den details. Denn die menschen sind fallibili, der prüfer könnte, nicht zu bemerken, dass eine oder mehrere kennungen für persönliche und genehmigen irrtümlich ein dokument als " nicht identifiziert und geeignet ist, für die weitere bearbeitung und analyse mithilfe von modellen für maschinelles lernen. Dies schafft nicht nur risiken für die privatsphäre der personen, sondern erhöht auch das risiko der nicht-einhaltung der GDPR. Letzteres kann schwerwiegende probleme rechtlichen und finanziellen für die organisation anzuecken im falle von sanktionen des Datenschutzbeauftragten.

Eine andere begrenzung der anonymisierung handbuch von gesundheitsdaten ist seine langsamkeit. Das gesundheitswesen auf der ebene mondaiale produziert milliarden von klinischen dokumenten-und diese zahl steigt von jahr zu jahr. Jede einrichtung ist jedes jahr hunderte von tausenden, wenn nicht millionen von klinischen dokumenten. Und täglich entstehen immer mehr dokumente dieses typs. Mit einem traditionellen ansatz ist es unmöglich, überprüfen und anonymisieren sie schnell alle daten in diesen dokumenten für recherchen, studien über die wirksamkeit, bewertungen, politik und andere anwendungsfälle.

Alternative ansätze zur de-identifikation

Die meisten der gesammelten daten in verschiedenen kontexten gespeichert werden, die auf relationalen datenbank-und nicht, in dem normalerweise gibt es verschiedene arten von aufgezeichneten daten, wie sie strukturierte und unstrukturierte daten. Unstrukturierte daten sind daten in der regel gespeichert, die im systemeigenen format (z. b. pdf-dokumente oder bilder in DICOM-format), während die strukturierten daten sind klar definiert, kodiert und durchsuchbar. In anbetracht der anderen art von daten zu behandeln, den prozess der patientenakten werden deidentifiziert angewendet werden muss, anders für jede art von daten und kann durch einfache verschleierung oder verschlüsselung an komplexere prozesse, wie die hash-oder masquerading. Die patientenakten werden deidentifiziert hat die form der anerkennung in der entität natürliche (NER) in der BSP und kann unterteilt werden in die folgenden drei kategorien:

Ansatz auf basis von regeln: gilt für die verwendung von regeln, vorlagen und wörterbücher zu anonymisieren, text-dokumente. Obwohl dieser ansatz erfordert sehr viel erfahrung in der branche und kann schwierig sein zu verwalten, mit der drift der daten, ist durchaus erklärbar.
Modellbasierter ansatz: Die forscher verwenden algorithmen für maschinelles lernen, um gegen die mangelnde belastbarkeit in regelbasierte systeme. Dies gilt für die verwendung von ML-modelle zu anonymisieren, den text. Dieser ansatz verallgemeinern, besser, hat eine höhere genauigkeit und eine bessere erfassung kontextmenü.
Hybrid-ansatz: ist eine pragmatische balance zwischen beiden ansätzen empfohlen. Die jüngsten entwicklungen im bereich des deep learning und NLP konnten sich die systeme erhalten sie bessere ergebnisse, insbesondere im feld der entität bezeichnet.

Analyse der rahmenbedingungen

Unser team arbeitet eng mit der organisation der gesundheitsversorgung für die überprüfung der anforderungen an die allgemeine konfiguration, infrastruktur und anonymisierung der daten. Wird eine analyse des juristischen risiken für das verständnis der geltenden gesetzlichen bestimmungen (GDPR, Privacy, etc.). Die analyse umfasst die art der informationen, zu anonymisieren: namen, telefonnummern, e-mail-adressen, rasse oder ethnischer zugehörigkeit, usw. und bestimmt, wie entfernen sie die bezeichner der patienten zu de-identifizieren.
Legt fest, wie muss vorgelegt werden, die ausgabe, wenn sie die daten nicht identifiziert werden und ersetzt werden müssen, beispielsweise, indem zufällige namen aus einem verzeichnis, ersetzt durch einen platzhalter oder einfach gelöscht.

Entfernen ids

Nach der vorherigen phase, dass eine maßnahme von der art "mensch", der nächste schritt ist jedoch die verwendung der software NLP. Es ist hier, dass der code und die pipeline konfiguriert werden, je nach umfeld, mit dem NLP-system zu entfernen bezeichner des patienten und der gesundheitsberufe bestimmt, die im vorherigen schritt.

Messung der ergebnisse

Dies ist noch einmal ein schritt menschliche, in denen das team testet und misst die leistung und die genauigkeit einer stichprobe von daten. Außerdem laufen die prozesse vereinbart, legt die probenahme und installieren sie die-plattform für die bereinigung von daten in der server-farm des kunden.

In abhängigkeit von den ergebnissen dieser schritt, das team bearbeiten, falls erforderlich, die pipeline-anonymisierung im vorherigen schritt erstellten. Wenn es auf die genauigkeit und leistung erfüllen die werte, die erforderlich sind, wechselt der prozess in die phase der anonymisierung.

De-identifizierung von daten

In dieser phase beruht auf dem NLP, das team verwaltet pipeline-de-identifikation, die ist extrem anspruchsvolle, damit die behandlung komplexer texte zu unstrukturierten und bilder, entfällt die notwendigkeit, prozesse anonymisierung handbücher, erfordern viel zeit und sind vorbehaltlich der menschlichen fehler.

Unser system NLP unterstützt viele arten von text nicht strukturiert für die de-identifizierung, einschließlich

Tabellen strukturiert und datasets
Dokumente zu text frei
Dokumente (DICOM Imaging und digitale kommunikation in der medizin).
In gescannten PDF
Daten der medizinischen bildgebung
Bilder von pathologie und vieles mehr

Am ende dieser phase ids der patienten sein können, führen sie die folgenden transformationen:

Löschen oder ersetzen von text
Trüben namen, orte, organisationen, etc.
Verallgemeinern-codes, termine und adressen von krankheiten

Tracking-daten, de-identifiziert

Der dienst anonymisierung nicht stoppen die anonymisierung der daten. Darüber hinaus umfasst die operative unterstützung, kontinuierliche messungen der leistung zu halten, die qualität, kohärenz und zuverlässigkeit der ergebnisse deidentificati. Insbesondere durchgeführt werden, die folgenden aktivitäten:

Verbesserung der modelle BSP
Erleichtert die reaktion auf vorfälle
Verwalten sie ihre anfragen zur entfernung GDPR und CCPA
Führen sie audit-daten und-prozesse

Analyse der rahmenbedingungen

Unser team arbeitet eng mit der organisation der gesundheitsversorgung für die überprüfung der anforderungen an die allgemeine konfiguration, infrastruktur und anonymisierung der daten. Wird eine analyse des juristischen risiken für das verständnis der geltenden gesetzlichen bestimmungen (GDPR, Privacy, etc.). Die analyse umfasst die art der informationen, zu anonymisieren: namen, telefonnummern, e-mail-adressen, rasse oder ethnischer zugehörigkeit, usw. und bestimmt, wie entfernen sie die bezeichner der patienten zu de-identifizieren.
Legt fest, wie muss vorgelegt werden, die ausgabe, wenn sie die daten nicht identifiziert werden und ersetzt werden müssen, beispielsweise, indem zufällige namen aus einem verzeichnis, ersetzt durch einen platzhalter oder einfach gelöscht.

Entfernen ids

Nach der vorherigen phase, dass eine maßnahme von der art "mensch", der nächste schritt ist jedoch die verwendung der software NLP. Es ist hier, dass der code und die pipeline konfiguriert werden, je nach umfeld, mit dem NLP-system zu entfernen bezeichner des patienten und der gesundheitsberufe bestimmt, die im vorherigen schritt.

Messung der ergebnisse

Dies ist noch einmal ein schritt menschliche, in denen das team testet und misst die leistung und die genauigkeit einer stichprobe von daten. Außerdem laufen die prozesse vereinbart, legt die probenahme und installieren sie die-plattform für die bereinigung von daten in der server-farm des kunden.

In abhängigkeit von den ergebnissen dieser schritt, das team bearbeiten, falls erforderlich, die pipeline-anonymisierung im vorherigen schritt erstellten. Wenn es auf die genauigkeit und leistung erfüllen die werte, die erforderlich sind, wechselt der prozess in die phase der anonymisierung.

De-identifizierung von daten

In dieser phase beruht auf dem NLP, das team verwaltet pipeline-de-identifikation, die ist extrem anspruchsvolle, damit die behandlung komplexer texte zu unstrukturierten und bilder, entfällt die notwendigkeit, prozesse anonymisierung handbücher, erfordern viel zeit und sind vorbehaltlich der menschlichen fehler.

Unser system NLP unterstützt viele arten von text nicht strukturiert für die de-identifizierung, einschließlich

Tabellen strukturiert und datasets
Dokumente zu text frei
Dokumente (DICOM Imaging und digitale kommunikation in der medizin).
In gescannten PDF
Daten der medizinischen bildgebung
Bilder von pathologie und vieles mehr

Am ende dieser phase ids der patienten sein können, führen sie die folgenden transformationen:

Löschen oder ersetzen von text
Trüben namen, orte, organisationen, etc.
Verallgemeinern-codes, termine und adressen von krankheiten

Tracking-daten, de-identifiziert

Der dienst anonymisierung nicht stoppen die anonymisierung der daten. Darüber hinaus umfasst die operative unterstützung, kontinuierliche messungen der leistung zu halten, die qualität, kohärenz und zuverlässigkeit der ergebnisse deidentificati. Insbesondere durchgeführt werden, die folgenden aktivitäten:

Verbesserung der modelle BSP
Erleichtert die reaktion auf vorfälle
Verwalten sie ihre anfragen zur entfernung GDPR und CCPA
Führen sie audit-daten und-prozesse

De-identifizierung, gesundheitsdaten

De-identifizierung, gesundheitsdaten

Nützliche links

Firmensitz

Sitz industriellen