De-identificazione dei dati sanitari
Il nostro software di deidentificazione dei dati sanitari end-to-end chiavi in mano, completamente personalizzabile, affronta efficacemente queste sfide con la potenza dell’elaborazione del linguaggio naturale (NLP).
Introduzione
Con il crescente numero di dati personali prodotti e archiviati dalle organizzazioni, la privacy dei dati sta diventando una priorità crescente. I dati supportano la ricerca all’avanguardia, guidano l’innovazione e aiutano nello sviluppo di soluzioni ai problemi del mondo reale. Ciò è particolarmente vero nel settore sanitario.
Il giusto tipo, quantità e qualità dei dati digitalizzati, forniscono agli operatori sanitari informazioni critiche sui pazienti, consentonon una comunicazione con i pazienti più efficace efficace, accelerano le diagnosi e permettono di fornire cure migliori e più efficienti. I ricercatori medici e sanitari sfruttano i dati anche per sviluppare nuovi farmaci, trattamenti e vaccinazioni, identificare i fattori di rischio delle malattie, prevenire o affrontare le epidemie e diffondere la conoscenza per migliorare la salute pubblica e prolungare la longevità umana.
Tuttavia, l’utilizzo di questi dati può compromettere la privacy delle persone a cui appartengono. Negli ultimi decenni, leggi come HIPAA si sono evolute per proteggere la privacy delle persone negli Stati Uniti. Anche altri paesi hanno sviluppato le proprie leggi sulla privacy dei dati, tra cui Canada, Australia e UE (GDPR). Le organizzazioni sanitarie, i professionisti e i ricercatori di tutti questi paesi devono rispettare queste normative per dimostrare di prendere sul serio la privacy dei dati dei pazienti ed evitare le ripercussioni finanziarie e legali della mancata conformità. Per ottenere la conformità, rimuovono i dati medici dei pazienti, ovvero le informazioni sanitarie protette (PHI) dei pazienti. La deidentificazione è anche un requisito per le organizzazioni che desiderano addestrare i propri modelli di machine learning ad analizzare o elaborare dati a livello di paziente per ricerche o altri scopi.
Cos’è la de-identificazione?
La de-identificazione è una tecnica utilizzata per rimuovere qualsiasi dato che potrebbe identificare una persona da un set di dati. È un modo per proteggere le informazioni personali che identificano un individuo o un’azienda eliminando tutte le informazioni di identificazione personale, in modo che non sia possibile risalire alla persona a cui appartengono i dati. Gli identificatori personali includono:
- Nme e cognome,
- Dati geografici, come indirizzo, città e codice postale
- Date direttamente correlate a un individuo, come data di nascita, data di dimissione, data di morte, ecc.
- Codice fiscale
- Numero della tessera sanitaria
- Numeri di telefono
- Indirizzi email
- Numeri della cartella clinica
- Identificatori biometrici, comprese impronte digitali e impronte vocali
- Fotografie riconoscibili
- indirizzo IP di accesso al sistema
- numeri di conto bancario (IBAN)
La de-identificazione viene talvolta utilizzata in modo intercambiabile con l’anonimizzazione, anche se c’è una certa differenza:
- la de-identificazione comporta la rimozione esplicita degli identificatori personali, ad esempio sostituendo nome e cognome reali con degli pseudonimi fittizzi generici per diverse persone, in modo che non sia possibile associare univocamente il paziente a partire dai suoi dati de-identificati.
- l’anonimizzazione si concentra sul fatto che dai dati non si possa risalire ad identificare l’individuo, ad esempio un codice numerico univocamente associato alla persona è un classico esempio di anonimizzazione, in cui dal codice numerico è possibile con una tabella di associazione tornare ad identificare il paziente..
L’importanza della de-identificazione in ambito sanitario
Nel mondo di oggi, dove ci sono molti scandali sulla privacy, è necessario conoscere e comprendere l’importanza della de-identificazione dei dati sanitari, infatti questa garantisce che i dati degli individui non vengano divulgati a terzi o esposti in modo inappropriato, limitando così potenziali danni alla privacy ed al GDPR.
La deidentificazione è diventata sempre più popolare dopo l’entrata in vigore del GDPR (Regolamento generale sulla protezione dei dati). Ma ci sono molti casi in cui le informazioni sanitarie personali delle persone sono state compromesse a loro insaputa (in caso di violazione dei dati personali o “data breach”) oppure senza il loro consenso a causa della mancanza di misure di sicurezza messe in atto dalle aziende sanitarie.
Approccio tradizionale alla de-identificazione dei dati sanitari
Tradizionalmente, le organizzazioni sanitarie ed i ricercatori utilizzavano metodi manuali per anonimizzare i dati dei pazienti e prepararli per ulteriori elaborazioni e analisi. Ciò ha comportato l’assunzione di un team di persone che esaminassero ogni documento pagina per pagina e riga per riga. Quindi cercherebbero qualsiasi identificativo personale in grado di identificare un individuo, come nome e cognome, indirizzo, numeri di telefono, ecc. rimuovendo infine manualmente l’identificativo personale dalle informazioni sanitarie de-identificate.
Il limite di quest’approccio è che si basa sull’occhio umano e sull’attenzione umana ai dettagli. Poiché gli esseri umani sono fallibili, il revisore potrebbe non notare uno o più identificatori personali ed approvare erroneamente un documento come non identificato e idoneo per ulteriori elaborazioni e analisi mediante modelli di apprendimento automatico. Ciò non solo crea rischi per la privacy degli individui, ma aumenta anche il rischio di non conformità al GDPR. Quest’ultimo può creare seri problemi legali e finanziari per l’organizzazione incriminata in caso di sanzioni del Garante della privacy.
Un’altro limite dell’anonimizzazione manuale dei dati sanitari è la sua lentezza. Il settore sanitario a livello mondaiale produce miliardi di documenti clinici e questo numero sta aumentando anno dopo anno. Ogni organizzazione sanitaria tratta ogni anno centinaia di migliaia, se non milioni, di documenti clinici. E ogni giorno vengono creati sempre più documenti di questo tipo. Con un approccio tradizionale è impossibile rivedere e rendere anonimi rapidamente tutti i dati contenuti in questi documenti per ricerche, studi sull’efficacia, valutazioni politiche e altri casi d’uso.
Approcci alternativi alla de-identificazione
Gran parte dei dati raccolti in vari contesti vengono archiviati su database relazionale e non, nel quale normalmente esistono diversi tipi di dati, registrati come dati strutturati e non strutturati. I dati non strutturati sono dati generalmente archiviati nel formato nativo (ad esempio documenti in formato pdf o immagini in formato DICOM), mentre i dati strutturati sono chiaramente definiti, codificati e ricercabili. Considerando la diversa tipologia di dati da trattare, il processo di deidentificazione deve essere applicato in modo diverso per ciascun tipo di dati e può variare dal semplice offuscamento o crittografia a processi più complessi come l’hashing o il mascheramento. La deidentificazione ha la forma del riconoscimento dell’entità naturale (NER) nella PNL e può essere suddivisa nelle seguenti tre categorie:
- Approccio basato su regole: si applica all’utilizzo di regole, corrispondenza di modelli e dizionari per anonimizzare i documenti di testo. Sebbene questo approccio richieda molta esperienza nel settore e possa essere difficile da gestire con la deriva dei dati, è abbastanza spiegabile.
- Approccio basato su modelli: I ricercatori utilizzano algoritmi di apprendimento automatico per affrontare la mancanza di resilienza nei sistemi basati su regole. Questo vale per l’utilizzo di modelli ML per anonimizzare il testo. Questo approccio che generalizza meglio ha una maggiore precisione e una migliore acquisizione contestuale.
- Approccio ibrido: rappresenta un equilibrio pragmatico tra entrambi gli approcci ed è raccomandato. I recenti sviluppi nel campo del deep learning e della PNL hanno consentito ai sistemi di ottenere risultati migliori, in particolare nel campo delle entità denominate.