Dissenyen un algoritme que anonimitza la informació sensible dels expedients mèdics

per NLV

Societat

Grup investigador de Fisabio
Grup investigador de Fisabio | GVA

Un projecte de la Unitat Mixta d'Imatge Biomèdica de la Fundació per al Foment de la Investigació Sanitària i Biomèdica (Fisabio) i del Centre d'Investigació Príncep Felip (CIPF) ha desenvolupat una eina que permet anonimitzar textos mèdics perquè puguen ser usats per investigadors sense vulnerar les lleis de protecció de dades.

Els informes clínics dels pacients contenen una gran quantitat informació útil per als investigadors: proves realitzades, medicació del pacient, temps de tractament, diagnòstics realitzats, etc. Irene Pérez-Díez, autora de l'article, recalca que «el tractament d'aquest tipus d'informació ajuda els investigadors en els seus projectes i contribueix a accelerar l'avanç científic. Perquè els investigadors puguen utilitzar aquesta informació és necessari que el text estiga anonimitzat i protegir la privacitat de les dades personals».

Aquest mètode està basat en categories (nom, lloc, número) associades a cada unitat d'informació que després l'algoritme elimina o canvia per informació falsa. Altres mètodes anteriors perden eficàcia quan hi ha errors tipogràfics en els textos o expressions dependents del context. «El nostre mètode es basa en el processament de llenguatge natural (NLP), per la qual cosa és sensible al context que envolta una paraula determinada; per exemple, la IA distingeix si la paraula coll fa referència a una part del cos o al cognom d'una persona», explica la investigadora.

Els treballs previs en aquest camp en castellà no aconseguien un nivell perfecte d'anonimització, ja que alguna informació sensible podia quedar exposada. Raúl Pérez-Moraga, coautor de l'article, afegeix que «el nostre mètode és molt més robust i versàtil si el comparem amb mètodes basats en regles fixes o expressions regulars, ja que aquests tenen una fiabilitat deficient si l'informe presenta errors ortogràfics o gramaticals».

A més, l'eina es pot traslladar fàcilment a altres idiomes, especialment si són llengües derivades del llatí. Segons l'investigador, «només faria falta anotar una quantitat suficient d'informes clínics de l'idioma en el qual es vulga aplicar la metodologia. De fet, l'algoritme ja és capaç de detectar paraules que contenen informació sensible tant en castellà com en valencià. Això no passa amb altres mètodes específics per a cada idioma».

L'article, titulat De-identifying Spanish medical texts - named entity recognition appliedto radiology report, ha sigut publicat en Journal of Biomedical Sciences i escrit per Irene Pérez-Díez, Raúl Pérez-Moraga, Adolfo López-Cerdán, Jose-Maria Salinas-Serrano i María de la Iglesia-Vayá, personal investigador de la Unitat Mixta d'Imatge Biomèdica Fisabio-CIPF.

Com s'ha desenvolupat l'algoritme

La metodologia de la investigació ha constat de tres fases: anotació, entrenament i test. Primer, un equip de persones expertes revisa els informes clínics amb dades sensibles i anota cada paraula amb una etiqueta concreta segons de quin tipus siga. «Dividir les paraules que s’han d’anonimitzar en grups ens permet obtindre un major rendiment dels algorismes d'intel·ligència artificial», explica Irene Pérez-Díez.

En una segona fase d'entrenament, l'equip expert en intel·ligència artificial trasllada l'informe anotat a algoritmes d'IA perquè aquests, «aprenguen» els patrons que envolten les paraules que contenen informació sensible. Finalment, es fan diferents proves per a testar el rendiment. Quan l'algoritme marca una paraula determinada pot fer dues coses, simplement esborrar-la o crear informació sensible falsa, és a dir, si detecta el nom d'una persona, el canviarà per un altre.

Una vegada avaluats els diferents algoritmes, es tria aquell que haja obtingut un major rendiment per a la tasca per a la qual s'ha implementat. Els informes clínics anonimitzats per l'algoritme són també avaluats per equips d'experts per evitar el filtratge de qualsevol informació sensible.

Finalment, Maria de la Iglesia-Vayá destaca que «el procediment desenvolupat dins del marc del projecte DeepHealth es basa en el principi de protecció de dades des del disseny i per defecte. No sols s'ha desenvolupat per a actuar com un mandat normatiu, sinó també com una metodologia que ajudarà en el desenvolupament de la transformació digital».

Aquesta metodologia es presentarà en el Hackathon d'anonimització que se celebrarà a finals d'any com a part del Projecte Europeu DeepHealth.

Agermana't

Cada dia estem més prop d'aconseguir l'objectiu de recuperar Diari La Veu. Amb una aportació de 150€ podràs obtindre una devolució de fins al 100% de l'import. Et necessitem ara. Informa't ací