26/04/2017

Desenvolupen un sistema que oculta de forma automàtica la informació confidencial dels documents de text

El mètode ofereix una precisió equiparable al procés manual que han de fer actualment els experts en privadesa i fins i tot és més exhaustiu

Fins ara la protecció de documents confidencials requeria un o diversos experts que manualment identificaven i eliminaven paraules

L’investigador David Sánchez, del grup de recerca CRISES-Càtedra UNESCO de Privadesa de Dades, del Departament d’Enginyeria Informàtica i Matemàtiques de la URV, i la investigadora Montserrat Batet, del grup de recerca KISON de la Universitat Oberta de Catalunya, han dissenyat un sistema que detecta i oculta de forma automàtica la informació confidencial dels documents. D’aquesta manera, els textos es poden enviar a terceres persones sense comprometre’n la privacitat i mantenint l’anonimat de les entitats (persones, organitzacions, etc.) a les quals fan referència.

Actualment, les dades personals són molt útils en força àmbits, tant de recerca com de negocis o de planificació. Per exemple, les dades de pacients emmagatzemades en historials mèdics són fonamentals per fer recerca mèdica, les operacions bancàries són la base per fer anàlisis financeres i l’anàlisi de les transaccions comercials serveix per millorar la personalització dels serveis que es presten. Com que moltes d’aquestes dades són confidencials, els documents que les contenen s’han de protegir abans d’enviar-los als investigadors que les faran servir. Utilitzar mecanismes de protecció adequats és, per tant, essencial per garantir la privadesa i l’anonimat de les persones.

Tot i que la legislació de la Unió Europea és molt estricta quant a la cessió de dades personals sense consentiment dels implicats, en altres països com els Estats Units és habitual que es requereixin i facilitin documents privats en assumptes judicials, baixes laborals, assegurances, etc. Ara bé, en tots els casos cal garantir que els documents facilitats no revelen cap informació confidencial que pugui fer-se servir amb finalitats discriminatòries, per exemple.

El sistema elimina o reemplaça

Fins ara la protecció de documents confidencials requeria un o diversos experts que manualment identificaven i eliminaven paraules, sintagmes o frases que podien revelar informació sensible o potencialment discriminatòria. En aquest procés es tenen en consideració tant termes sensibles, com ara el nom d’una malaltia contagiosa, com també conjunts de termes que permetrien deduir els anteriors indirectament, per exemple, combinacions de medicaments o tractaments que només s’apliquen en una malaltia concreta. Treballar amb aquests elements suposa una tasca àrdua que no sempre és infal·lible a causa de la complexitat que té.

El mètode que han desenvolupat automatitza tot aquest procés, cosa que permet manejar i protegir eficientment el gran volum de dades que es fan servir actualment en recerca. Per fer-ho, el sistema analitza la informació disponible a internet, que és la que un tercer podria fer servir com a base de coneixement per deduir informació confidencial d’un document protegit. A continuació protegeix aquells termes que podrien facilitar aquestes deduccions.

Les proves han demostrat que aquest mètode és més exhaustiu i ofereix una precisió equiparable a la d’una persona experta. A més, a diferència dels experts, el sistema no es limita a eliminar termes perillosos, sinó que també intenta, sempre que es pugui, reemplaçar-los per conceptes més generals que resultin més ambigus. Per exemple, en lloc d’especificar que un pacient té pneumònia, s’indicaria que pateix una malaltia del sistema respiratori. Amb això s’aconsegueix que el document protegit sigui més entenedor i resulti més útil en les anàlisis posteriors que no pas eliminant-ne termes.

La implantació per a la recerca

De moment, el mètode s’ha implementat en un prototipus de programa informàtic que s’ha provat sobre documents clínics en anglès. Es preveu que en un futur pròxim es faci servir en altres àmbits de coneixement i pugui establir-se com una eina d’ús professional d’especial utilitat per a la investigació.

Aquesta recerca s’emmarca en el projecte europeu CLARUS, sobre privadesa de dades al núvol, que coordina la URV i rep finançament del programa Horitzó 2020 de la Unió Europea per al període 2015-17. També forma part del projecte SmartGlacis: Tecnologies de seguretat i privacitat per a ciutats intel·ligents de la UOC, finançat pel Ministeri d’Economia i Competitivitat.

Referència bibliogràfica: David Sánchez i Montserrat Batet: “Toward sensitive document release with privacy guarantees”. Engineering Applications of Artificial Intelligence. Volume 59, March 2017, Pages 23-34. DOI: 10.1016/j.engappai.2016.12.013

Subscriu-te als butlletins de la URV

Arxivat a: Ciència i tecnologia, ComCiència, Escola Tècnica Superior d'Enginyeria, Recerca
Més notícies de: Càtedra Unesco de Privacitat de Dades, David Sánchez, privadesa de dades