Servizi

De-identificazione dei dati sanitari

Il nostro software di deidentificazione dei dati sanitari end-to-end chiavi in mano, completamente personalizzabile, affronta efficacemente queste sfide con la potenza dell’elaborazione del linguaggio naturale (NLP).

Con il crescente numero di dati personali prodotti e archiviati dalle organizzazioni, la privacy dei dati sta diventando una priorità crescente. I dati supportano la ricerca all’avanguardia, guidano l’innovazione e aiutano nello sviluppo di soluzioni ai problemi del mondo reale. Ciò è particolarmente vero nel settore sanitario.

Il giusto tipo, quantità e qualità dei dati digitalizzati, forniscono agli operatori sanitari informazioni critiche sui pazienti, consentonon una comunicazione con i pazienti più efficace efficace, accelerano le diagnosi e permettono di fornire cure migliori e più efficienti. I ricercatori medici e sanitari sfruttano i dati anche per sviluppare nuovi farmaci, trattamenti e vaccinazioni, identificare i fattori di rischio delle malattie, prevenire o affrontare le epidemie e diffondere la conoscenza per migliorare la salute pubblica e prolungare la longevità umana.

Tuttavia, l’utilizzo di questi dati può compromettere la privacy delle persone a cui appartengono. Negli ultimi decenni, leggi come HIPAA si sono evolute per proteggere la privacy delle persone negli Stati Uniti. Anche altri paesi hanno sviluppato le proprie leggi sulla privacy dei dati, tra cui Canada, Australia e UE (GDPR). Le organizzazioni sanitarie, i professionisti e i ricercatori di tutti questi paesi devono rispettare queste normative per dimostrare di prendere sul serio la privacy dei dati dei pazienti ed evitare le ripercussioni finanziarie e legali della mancata conformità. Per ottenere la conformità, rimuovono i dati medici dei pazienti, ovvero le informazioni sanitarie protette (PHI) dei pazienti. La deidentificazione è anche un requisito per le organizzazioni che desiderano addestrare i propri modelli di machine learning ad analizzare o elaborare dati a livello di paziente per ricerche o altri scopi.

La de-identificazione è una tecnica utilizzata per rimuovere qualsiasi dato che potrebbe identificare una persona da un set di dati. È un modo per proteggere le informazioni personali che identificano un individuo o un’azienda eliminando tutte le informazioni di identificazione personale, in modo che non sia possibile risalire alla persona a cui appartengono i dati. Gli identificatori personali includono:

  • Nme e cognome,
  • Dati geografici, come indirizzo, città e codice postale
  • Date direttamente correlate a un individuo, come data di nascita, data di dimissione, data di morte, ecc.
  • Codice fiscale
  • Numero della tessera sanitaria
  • Numeri di telefono
  • Indirizzi email
  • Numeri della cartella clinica
  • Identificatori biometrici, comprese impronte digitali e impronte vocali
  • Fotografie riconoscibili
  • indirizzo IP di accesso al sistema
  • numeri di conto bancario (IBAN)

La de-identificazione viene talvolta utilizzata in modo intercambiabile con l’anonimizzazione, anche se c’è una certa differenza:

  • la de-identificazione comporta la rimozione esplicita degli identificatori personali, ad esempio sostituendo nome e cognome reali con degli pseudonimi fittizzi generici per diverse persone, in modo che non sia possibile associare univocamente il paziente a partire dai suoi dati de-identificati.
  • l’anonimizzazione si concentra sul fatto che dai dati non si possa risalire ad identificare l’individuo, ad esempio un codice numerico univocamente associato alla persona è un classico esempio di anonimizzazione, in cui dal codice numerico è possibile con una tabella di associazione tornare ad identificare il paziente..

Nel mondo di oggi, dove ci sono molti scandali sulla privacy, è necessario conoscere e comprendere l’importanza della de-identificazione dei dati sanitari, infatti questa  garantisce che i dati degli individui non vengano divulgati a terzi o esposti in modo inappropriato, limitando così potenziali danni alla privacy ed al GDPR.

La deidentificazione è diventata sempre più popolare dopo l’entrata in vigore del GDPR (Regolamento generale sulla protezione dei dati). Ma ci sono molti casi in cui le informazioni sanitarie personali delle persone sono state compromesse a loro insaputa (in caso di violazione dei dati personali o “data breach”) oppure senza il loro consenso a causa della mancanza di misure di sicurezza messe in atto dalle aziende sanitarie.

Tradizionalmente, le organizzazioni sanitarie ed i ricercatori utilizzavano metodi manuali per anonimizzare i dati dei pazienti e prepararli per ulteriori elaborazioni e analisi. Ciò ha comportato l’assunzione di un team di persone che esaminassero ogni documento pagina per pagina e riga per riga. Quindi cercherebbero qualsiasi identificativo personale in grado di identificare un individuo, come nome e cognome, indirizzo, numeri di telefono, ecc. rimuovendo infine manualmente l’identificativo personale dalle informazioni sanitarie de-identificate.

Il limite di quest’approccio è che si basa sull’occhio umano e sull’attenzione umana ai dettagli. Poiché gli esseri umani sono fallibili, il revisore potrebbe non notare uno o più identificatori personali ed approvare erroneamente un documento come non identificato e idoneo per ulteriori elaborazioni e analisi mediante modelli di apprendimento automatico. Ciò non solo crea rischi per la privacy degli individui, ma aumenta anche il rischio di non conformità al GDPR. Quest’ultimo può creare seri problemi legali e finanziari per l’organizzazione incriminata in caso di sanzioni del Garante della privacy.

Un’altro limite dell’anonimizzazione manuale dei dati sanitari è la sua lentezza. Il settore sanitario a livello mondaiale produce miliardi di documenti clinici e questo numero sta aumentando anno dopo anno. Ogni organizzazione sanitaria tratta ogni anno centinaia di migliaia, se non milioni, di documenti clinici. E ogni giorno vengono creati sempre più documenti di questo tipo. Con un approccio tradizionale è impossibile rivedere e rendere anonimi rapidamente tutti i dati contenuti in questi documenti per ricerche, studi sull’efficacia, valutazioni politiche e altri casi d’uso.

Gran parte dei dati raccolti in vari contesti vengono archiviati su database relazionale e non, nel quale normalmente esistono diversi tipi di dati, registrati come dati strutturati e non strutturati. I dati non strutturati sono dati generalmente archiviati nel formato nativo (ad esempio documenti in formato pdf o immagini in formato DICOM), mentre i dati strutturati sono chiaramente definiti, codificati e ricercabili. Considerando la diversa tipologia di dati da trattare,  il processo di deidentificazione deve essere applicato in modo diverso per ciascun tipo di dati e può variare dal semplice offuscamento o crittografia a processi più complessi come l’hashing o il mascheramento. La deidentificazione ha la forma del riconoscimento dell’entità naturale (NER) nella PNL e può essere suddivisa nelle seguenti tre categorie:

  • Approccio basato su regole: si applica all’utilizzo di regole, corrispondenza di modelli e dizionari per anonimizzare i documenti di testo. Sebbene questo approccio richieda molta esperienza nel settore e possa essere difficile da gestire con la deriva dei dati, è abbastanza spiegabile.
  • Approccio basato su modelli: I ricercatori utilizzano algoritmi di apprendimento automatico per affrontare la mancanza di resilienza nei sistemi basati su regole. Questo vale per l’utilizzo di modelli ML per anonimizzare il testo. Questo approccio che generalizza meglio ha una maggiore precisione e una migliore acquisizione contestuale.
  • Approccio ibrido: rappresenta un equilibrio pragmatico tra entrambi gli approcci ed è raccomandato. I recenti sviluppi nel campo del deep learning e della PNL hanno consentito ai sistemi di ottenere risultati migliori, in particolare nel campo delle entità denominate.

De-identificazione dei dati sanitari

Il nostro software di deidentificazione dei dati sanitari end-to-end chiavi in mano, completamente personalizzabile, affronta efficacemente queste sfide con la potenza dell’elaborazione del linguaggio naturale (NLP).

Con il crescente numero di dati personali prodotti e archiviati dalle organizzazioni, la privacy dei dati sta diventando una priorità crescente. I dati supportano la ricerca all’avanguardia, guidano l’innovazione e aiutano nello sviluppo di soluzioni ai problemi del mondo reale. Ciò è particolarmente vero nel settore sanitario.

Il giusto tipo, quantità e qualità dei dati digitalizzati, forniscono agli operatori sanitari informazioni critiche sui pazienti, consentonon una comunicazione con i pazienti più efficace efficace, accelerano le diagnosi e permettono di fornire cure migliori e più efficienti. I ricercatori medici e sanitari sfruttano i dati anche per sviluppare nuovi farmaci, trattamenti e vaccinazioni, identificare i fattori di rischio delle malattie, prevenire o affrontare le epidemie e diffondere la conoscenza per migliorare la salute pubblica e prolungare la longevità umana.

Tuttavia, l’utilizzo di questi dati può compromettere la privacy delle persone a cui appartengono. Negli ultimi decenni, leggi come HIPAA si sono evolute per proteggere la privacy delle persone negli Stati Uniti. Anche altri paesi hanno sviluppato le proprie leggi sulla privacy dei dati, tra cui Canada, Australia e UE (GDPR). Le organizzazioni sanitarie, i professionisti e i ricercatori di tutti questi paesi devono rispettare queste normative per dimostrare di prendere sul serio la privacy dei dati dei pazienti ed evitare le ripercussioni finanziarie e legali della mancata conformità. Per ottenere la conformità, rimuovono i dati medici dei pazienti, ovvero le informazioni sanitarie protette (PHI) dei pazienti. La deidentificazione è anche un requisito per le organizzazioni che desiderano addestrare i propri modelli di machine learning ad analizzare o elaborare dati a livello di paziente per ricerche o altri scopi.

La de-identificazione è una tecnica utilizzata per rimuovere qualsiasi dato che potrebbe identificare una persona da un set di dati. È un modo per proteggere le informazioni personali che identificano un individuo o un’azienda eliminando tutte le informazioni di identificazione personale, in modo che non sia possibile risalire alla persona a cui appartengono i dati. Gli identificatori personali includono:

  • Nme e cognome,
  • Dati geografici, come indirizzo, città e codice postale
  • Date direttamente correlate a un individuo, come data di nascita, data di dimissione, data di morte, ecc.
  • Codice fiscale
  • Numero della tessera sanitaria
  • Numeri di telefono
  • Indirizzi email
  • Numeri della cartella clinica
  • Identificatori biometrici, comprese impronte digitali e impronte vocali
  • Fotografie riconoscibili
  • indirizzo IP di accesso al sistema
  • numeri di conto bancario (IBAN)

La de-identificazione viene talvolta utilizzata in modo intercambiabile con l’anonimizzazione, anche se c’è una certa differenza:

  • la de-identificazione comporta la rimozione esplicita degli identificatori personali, ad esempio sostituendo nome e cognome reali con degli pseudonimi fittizzi generici per diverse persone, in modo che non sia possibile associare univocamente il paziente a partire dai suoi dati de-identificati.
  • l’anonimizzazione si concentra sul fatto che dai dati non si possa risalire ad identificare l’individuo, ad esempio un codice numerico univocamente associato alla persona è un classico esempio di anonimizzazione, in cui dal codice numerico è possibile con una tabella di associazione tornare ad identificare il paziente..

Nel mondo di oggi, dove ci sono molti scandali sulla privacy, è necessario conoscere e comprendere l’importanza della de-identificazione dei dati sanitari, infatti questa  garantisce che i dati degli individui non vengano divulgati a terzi o esposti in modo inappropriato, limitando così potenziali danni alla privacy ed al GDPR.

La deidentificazione è diventata sempre più popolare dopo l’entrata in vigore del GDPR (Regolamento generale sulla protezione dei dati). Ma ci sono molti casi in cui le informazioni sanitarie personali delle persone sono state compromesse a loro insaputa (in caso di violazione dei dati personali o “data breach”) oppure senza il loro consenso a causa della mancanza di misure di sicurezza messe in atto dalle aziende sanitarie.

Tradizionalmente, le organizzazioni sanitarie ed i ricercatori utilizzavano metodi manuali per anonimizzare i dati dei pazienti e prepararli per ulteriori elaborazioni e analisi. Ciò ha comportato l’assunzione di un team di persone che esaminassero ogni documento pagina per pagina e riga per riga. Quindi cercherebbero qualsiasi identificativo personale in grado di identificare un individuo, come nome e cognome, indirizzo, numeri di telefono, ecc. rimuovendo infine manualmente l’identificativo personale dalle informazioni sanitarie de-identificate.

Il limite di quest’approccio è che si basa sull’occhio umano e sull’attenzione umana ai dettagli. Poiché gli esseri umani sono fallibili, il revisore potrebbe non notare uno o più identificatori personali ed approvare erroneamente un documento come non identificato e idoneo per ulteriori elaborazioni e analisi mediante modelli di apprendimento automatico. Ciò non solo crea rischi per la privacy degli individui, ma aumenta anche il rischio di non conformità al GDPR. Quest’ultimo può creare seri problemi legali e finanziari per l’organizzazione incriminata in caso di sanzioni del Garante della privacy.

Un’altro limite dell’anonimizzazione manuale dei dati sanitari è la sua lentezza. Il settore sanitario a livello mondaiale produce miliardi di documenti clinici e questo numero sta aumentando anno dopo anno. Ogni organizzazione sanitaria tratta ogni anno centinaia di migliaia, se non milioni, di documenti clinici. E ogni giorno vengono creati sempre più documenti di questo tipo. Con un approccio tradizionale è impossibile rivedere e rendere anonimi rapidamente tutti i dati contenuti in questi documenti per ricerche, studi sull’efficacia, valutazioni politiche e altri casi d’uso.

Gran parte dei dati raccolti in vari contesti vengono archiviati su database relazionale e non, nel quale normalmente esistono diversi tipi di dati, registrati come dati strutturati e non strutturati. I dati non strutturati sono dati generalmente archiviati nel formato nativo (ad esempio documenti in formato pdf o immagini in formato DICOM), mentre i dati strutturati sono chiaramente definiti, codificati e ricercabili. Considerando la diversa tipologia di dati da trattare,  il processo di deidentificazione deve essere applicato in modo diverso per ciascun tipo di dati e può variare dal semplice offuscamento o crittografia a processi più complessi come l’hashing o il mascheramento. La deidentificazione ha la forma del riconoscimento dell’entità naturale (NER) nella PNL e può essere suddivisa nelle seguenti tre categorie:

  • Approccio basato su regole: si applica all’utilizzo di regole, corrispondenza di modelli e dizionari per anonimizzare i documenti di testo. Sebbene questo approccio richieda molta esperienza nel settore e possa essere difficile da gestire con la deriva dei dati, è abbastanza spiegabile.
  • Approccio basato su modelli: I ricercatori utilizzano algoritmi di apprendimento automatico per affrontare la mancanza di resilienza nei sistemi basati su regole. Questo vale per l’utilizzo di modelli ML per anonimizzare il testo. Questo approccio che generalizza meglio ha una maggiore precisione e una migliore acquisizione contestuale.
  • Approccio ibrido: rappresenta un equilibrio pragmatico tra entrambi gli approcci ed è raccomandato. I recenti sviluppi nel campo del deep learning e della PNL hanno consentito ai sistemi di ottenere risultati migliori, in particolare nel campo delle entità denominate.

Il nostro team lavora a stretto contatto con l’organizzazione sanitaria per rivedere i requisiti generali di configurazione, infrastruttura e anonimizzazione dei dati. Viene condotta un’analisi del rischio legale per comprendere i requisiti di legge applicabili (GDPR, Privacy, ecc.). L’analsi comprende il tipo di informazioni da anonimizzare: nomi, numeri di telefono, indirizzi e-mail, origine razziale o etnica, ecc. e determina come rimuovere gli identificatori dei pazienti da de-identificare.
Determina come deve essere presentato l’output, se i dati non identificati devono essere sostituiti, ad esempio, aggiungendo nomi casuali da una directory, sostituiti da un segnaposto o semplicemente cancellati.

Dopo la fase precedente che prevede un intervento di tipo “umano”, la fase successiva prevede invece l’utilizzo del software NLP. È qui che il codice e le pipeline vengono configurate, in funzione del contesto di riferimento, utilizzando il sistema NLP per rimuovere gli identificatori del paziente e degli operatori sanitari determinati nel passaggio precedente.

Si tratta ancora una volta di un passaggio umano, in cui il team verifica e misura le prestazioni e l’accuratezza su un campione di dati. Inoltre vengono eseguiti i processi concordati, si imposta il campionamento e si installano la piattaforma per la pulizia dei dati nella server farm del cliente.

A seconda dei risultati di questo passaggio, il team modifica, se necessario, le pipeline di anonimizzazione create nel passaggio precedente. Se l’accuratezza e le prestazioni soddisfano i livelli richiesti, il processo passa alla fase di anonimizzazione.

In questa fase basata sul sistema NLP, il team gestisce la pipeline di de-identificazione che è estremamente sofisticata per consentire il trattamento di testi complessi non strutturati ed immagini, eliminando la necessità di processi di anonimizzazione manuali, che richiedono molto tempo e sono soggetti ad all’errore umano.

Il nostro sistema NLP supporta numerosi tipi di testo non strutturato per la de-identificazione, inclusi

  • Tabelle strutturate e set di dati
  • Documenti a testo libero
  • Documenti DICOM (Imaging e comunicazioni digitali in medicina).
  • PDF scansionati
  • Dati di imaging medico
  • Immagini di patologia e altro ancora

Al termine di questa fase sugli identificatori dei pazienti possono essere eseguite le seguenti trasformazioni:

  • Eliminare o sostituire dal testo
  • Offuscare nomi, luoghi, organizzazioni, ecc.
  • Generalizzare codici, date e indirizzi delle malattie

Il servizio di anonimizzazione non si ferma alla anonimizzazione dei dati. Include inoltre supporto operativo continuo e misurazioni delle prestazioni per mantenere la qualità, la coerenza e l’affidabilità dei risultati deidentificati. In particolare vengono condotte le seguenti attività:

  • Migliorare i modelli di PNL
  • Semplifica la risposta agli incidenti
  • Gestisci le richieste di rimozione GDPR e CCPA
  • Eseguire audit di dati e processi

Il nostro team lavora a stretto contatto con l’organizzazione sanitaria per rivedere i requisiti generali di configurazione, infrastruttura e anonimizzazione dei dati. Viene condotta un’analisi del rischio legale per comprendere i requisiti di legge applicabili (GDPR, Privacy, ecc.). L’analsi comprende il tipo di informazioni da anonimizzare: nomi, numeri di telefono, indirizzi e-mail, origine razziale o etnica, ecc. e determina come rimuovere gli identificatori dei pazienti da de-identificare.
Determina come deve essere presentato l’output, se i dati non identificati devono essere sostituiti, ad esempio, aggiungendo nomi casuali da una directory, sostituiti da un segnaposto o semplicemente cancellati.

Dopo la fase precedente che prevede un intervento di tipo “umano”, la fase successiva prevede invece l’utilizzo del software NLP. È qui che il codice e le pipeline vengono configurate, in funzione del contesto di riferimento, utilizzando il sistema NLP per rimuovere gli identificatori del paziente e degli operatori sanitari determinati nel passaggio precedente.

Si tratta ancora una volta di un passaggio umano, in cui il team verifica e misura le prestazioni e l’accuratezza su un campione di dati. Inoltre vengono eseguiti i processi concordati, si imposta il campionamento e si installano la piattaforma per la pulizia dei dati nella server farm del cliente.

A seconda dei risultati di questo passaggio, il team modifica, se necessario, le pipeline di anonimizzazione create nel passaggio precedente. Se l’accuratezza e le prestazioni soddisfano i livelli richiesti, il processo passa alla fase di anonimizzazione.

In questa fase basata sul sistema NLP, il team gestisce la pipeline di de-identificazione che è estremamente sofisticata per consentire il trattamento di testi complessi non strutturati ed immagini, eliminando la necessità di processi di anonimizzazione manuali, che richiedono molto tempo e sono soggetti ad all’errore umano.

Il nostro sistema NLP supporta numerosi tipi di testo non strutturato per la de-identificazione, inclusi

  • Tabelle strutturate e set di dati
  • Documenti a testo libero
  • Documenti DICOM (Imaging e comunicazioni digitali in medicina).
  • PDF scansionati
  • Dati di imaging medico
  • Immagini di patologia e altro ancora

Al termine di questa fase sugli identificatori dei pazienti possono essere eseguite le seguenti trasformazioni:

  • Eliminare o sostituire dal testo
  • Offuscare nomi, luoghi, organizzazioni, ecc.
  • Generalizzare codici, date e indirizzi delle malattie

Il servizio di anonimizzazione non si ferma alla anonimizzazione dei dati. Include inoltre supporto operativo continuo e misurazioni delle prestazioni per mantenere la qualità, la coerenza e l’affidabilità dei risultati deidentificati. In particolare vengono condotte le seguenti attività:

  • Migliorare i modelli di PNL
  • Semplifica la risposta agli incidenti
  • Gestisci le richieste di rimozione GDPR e CCPA
  • Eseguire audit di dati e processi

© 2023 Copyright TALENCE Srl - P.IVA 10316311215 - Tutti i diritti riservati