26/04/2017

Desarrollan un sistema que oculta de forma automática la información confidencial de documentos de texto

El método ofrece una precisión equiparable al proceso manual que deben hacer actualmente los expertos en privacidad e incluso es más exhaustivo

Hasta ahora, la protección de documentos confidenciales requería de uno o varios expertos que, manualmente, identificaban y eliminaban palabras

El investigador David Sánchez, del grupo de investigación CRISES-Cátedra UNESCO de Privacidad de Datos, del Departamento de Ingeniería Informática y Matemáticas de la URV, y la investigadora Montserrat Batet, del grupo de investigación KISON de la Universitat Oberta de Catalunya, han diseñado un sistema que detecta y oculta de forma automática la información confidencial de documentos de texto. De este modo, los documentos se pueden enviar a terceros sin comprometer la privacidad y manteniendo el anonimato de las entidades (personas, organizaciones, etc.) a las que hacen referencia.

Actualmente, los datos personales resultan de gran utilidad en muchos ámbitos, tanto de investigación como de negocios o planificación. Por ejemplo, los datos de pacientes almacenados en historiales médicos son fundamentales para realizar investigación médica; las operaciones bancarias constituyen la base de los análisis financieros, y el análisis de las transacciones comerciales sirve para mejorar la personalización de los servicios que se prestan. Dado que muchos de estos datos son confidenciales, los documentos que los contienen deben protegerse antes de ser enviados a los investigadores. Utilizar mecanismos de protección adecuados es, por tanto, esencial para garantizar la privacidad o el anonimato de los individuos.

Aunque la legislación de la Unión Europea es muy estricta en cuanto a la cesión de datos personales sin consentimiento de los implicados, en otros países, como Estados Unidos, es habitual que se requieran y faciliten documentos privados en asuntos judiciales, bajas laborales, seguros, etc. Ahora bien, en todos los casos, se debe garantizar que los documentos facilitados no revelan información confidencial que pueda utilizarse, por ejemplo, con fines discriminatorios.

El sistema elimina o reemplaza

Hasta ahora, la protección de documentos confidenciales requería de uno o varios expertos que, manualmente, identificaban y eliminaban palabras, sintagmas o frases que podían revelar información sensible o potencialmente discriminatoria. En este proceso se tienen en consideración términos sensibles, como el nombre de una enfermedad contagiosa, y conjuntos de términos que permitirían deducir los anteriores indirectamente, como, por ejemplo, combinaciones de medicamentos o tratamientos que se aplican solo en una enfermedad concreta. Trabajar con estos elementos es una tarea ardua y, por su complejidad, no siempre infalible.

El método que han desarrollado automatiza todo el proceso, lo que permite manejar y proteger de manera eficiente el gran volumen de datos que se utilizan actualmente en investigación. Para ello, el sistema analiza la información disponible en internet, que es la que un tercero podría utilizar como base de conocimiento para deducir información confidencial de un documento protegido. Seguidamente protege aquellos términos que podrían facilitar tales deducciones.

Las pruebas han demostrado que este método es más exhaustivo y ofrece una precisión equiparable a la de un experto humano. Además, a diferencia de los expertos, el sistema no se limita a eliminar términos peligrosos, sino que, en la medida de lo posible, intenta reemplazarlos por conceptos más generales que resulten más ambiguos. Por ejemplo, en lugar de especificar que un paciente tiene una neumonía, indicaría que sufre una enfermedad del sistema respiratorio. Con esto se consigue que el documento protegido sea más comprensible y más útil en los análisis posteriores.

La implantación para la investigación

De momento, el método se ha implementado en un prototipo de software que se ha probado con documentos clínicos en inglés. Se prevé que en un futuro próximo pueda aplicarse en otros ámbitos de conocimiento y pueda establecerse como una herramienta de uso profesional de especial utilidad para la investigación.

La investigación se enmarca en el proyecto europeo CLARUS, sobre privacidad de datos en la nube, que coordina la URV y que cuenta con la financiación del programa Horizonte 2020 de la Unión Europea para el período 2015-2017. Asimismo, forma parte del proyecto SmartGlacis: tecnologías de seguridad y privacidad para ciudades inteligentes, de la UOC, financiado por el Ministerio de Economía y Competitividad.

Referencia bibliográfica: David Sánchez y Montserrat Batet: «Toward sensitive document release with privacy guarantees». Engineering Applications of Artificial Intelligence. Volume 59, March 2017, Pages 23-34. DOI: 10.1016/j.engappai.2016.12.013

Suscríbete a los boletines de la URV

Archivado en: Ciencia y tecnología, Comunicación de la ciencia, Escuela Técnica Superior de Ingeniería, Investigación
Más notícias de: Cátedra Unesco de Privacidad de Datos, David Sánchez, privacidad de datos