03/05/2023

La aplicación de un nuevo método de protección de la privacidad utilizado por el censo americano es innecesario y perjudicial

Expertos de la URV apuntan que este método reduce significativamente la calidad los datos, refutan que los mecanismos tradicionales supongan un riesgo para la privacidad y piden a las instituciones no caer en el seguidismo

El año 2020, como cada decenio, el United States Census Bureau (USCB) publicó el Decennial Census, el recuento de población y vivienda que incluye todos los cincuenta estados, el Distrito de Columbia, Puerto Rico y las Áreas Insulares. Se trata de un tipo de padrón, en el que los resultados del informe determinan el número de escaños por cada estado en la Cámara de Representantes de los Estados Unidos y ayudan a delimitar áreas para distribuir centenares de miles de millones de dólares en fondos federales cada año. Dado que los datos recogidos son de carácter personal, tradicionalmente el USCB ha aplicado mecanismos de protección de la privacidad que resultaban efectivos tanto para conseguir el anonimato de las personas como para mantener la calidad de los datos publicados. Pero, en esta edición, la USCB ha implementado cambios significativos en el método de protección que han resultado ser polémicos. Y es que, en los datos publicados por la agencia estadística más importante del mundo, se contabilizan de manera errónea a casi 10 millones de residentes, contando dos veces a más de 5 millones de personas y pasando muchas otros por alto, según un artículo del New York Times.

Estas desviaciones han sido causadas por el uso de un nuevo método de protección de la privacidad denominado “privacidad diferencial”. Según los investigadores del grupo de investigación CRISES de la URV Josep Domingo-Ferrer y David Sánchez, este método ya había sido utilizado previamente por grandes compañías privadas, con resultados cuestionables. “Hay dos maneras de aplicar la privacidad diferencial: o lo haces como toca y distorsionas significativamente los datos, como ha hecho el USCB, o eres más permisivo con tal de conservarlas, como han hecho Apple o Google, pero entonces no consigues ninguna garantía de privacidad”, explica el profesor Sánchez.

Entonces, ¿por qué una institución con más de 120 años de historia de recogida de datos y de elaboración de censos utilizaría un método tan destructivo? Pues porque se trata de un método de protección muy mediático, un “sello de garantía”, que se ha asociado durante los últimos años a altos niveles de privacidad y que ha captado la atención de muchos investigadores y profesionales que lo utilizan, muchas veces, de manera “incondicional”. Domingo-Ferrer advierte que es un método concebido para tratar “ciertos tipos de datos” y que no se puede utilizar en cualquier situación: “Es como los coches; no se te acudiría conducir un deportivo por una pista de montaña, pero no por eso deja de ser un buen coche”.

De izquierda a derecha: Josep Domingo-Ferrer y David Sánchez, investigadores del grupo de investigación CRISES de la URV.

Más recientemente, y en respuesta al clamor de la comunidad académica de los Estados Unidos —que ha visto como los datos del censo de que dispone para llevar a cabo sus investigaciones son mucho más imprecisas que las de años anteriores—, los creadores de la privacidad diferencial publicaron un artículo en la revista científica PNAS donde defendían que, de no utilizar su sistema, era posible reconstruir los datos personales de ciertos ciudadanos norteamericanos a partir del censo publicado. En su artículo recientemente publicado en la misma revista, Domingo-Ferrer i Sánchez critican esta postura. “Al contrario del que se afirma en el artículo original, no es posible reconstruir la información privada de los individuos de manera unívoca; hay un gran número de reconstrucciones de escenarios posibles que son compatibles con las estadísticas publicadas al censo”, afirma Domingo-Ferrer. Si bien es cierto que utilizando ciertos métodos estadísticos se pueden deducir aquellas reconstrucciones que es más probable que correspondan a los datos originales, esto no supone una vulneración de la privacidad porque las reconstrucciones más probables son las que tienen valores más comunes entre la población, con lo cual es difícil que se puedan asociar a ningún ciudadano en concreto.

En cuanto a las consecuencias del uso de la privacidad diferencial, no todas son de carácter institucional. Sánchez señala que los datos publicados por organismos oficiales se utilizan ampliamente en el mundo académico y avisa que las conclusiones de las investigaciones posteriores pueden dejar de ser válidas o, directamente, la investigación derivada puede dejar de tener sentido. Los métodos de privacidad también juegan un papel importante en el desarrollo de tecnologías de aprendizaje automático, que se entrenan, en gran parte, a partir de datos personales. Los investigadores del grupo CRISES ya demostraron que el uso de la privacidad diferencial en este ámbito es innecesario y avisan que haría retroceder la calidad de los modelos de inteligencia artificial de forma significativa. “No debemos renunciar a la precisión de estos modelos para disponer de la etiqueta de la privacidad diferencial cuando esta no es necesaria”, afirma Sánchez.

A Domingo-Ferrer y Sánchez, igual que a muchos otros académicos de su ámbito, les preocupa especialmente la tentación de seguidismo por parte de las instituciones, especialmente las de países europeos. Los institutos de estadística oficial de cada país son una fuente de informes, censos y otras publicaciones que constituyen la materia prima para gran parte de la investigación científica. “No hay un peligro inminente de reconstrucción de información privada que justifique el uso de este método”, defienden. Lo que sí es peligroso, afirman, es que se tome como ejemplo el camino que ha tomado el United States Census Bureau en materia de protección de datos. En este sentido, piden a instituciones y a expertos que no adopten métodos tan destructivos si no es necesario.

Suscríbete a los boletines de la URV

Archivado en: Ciencia y tecnología, Departamento de Ingeniería Informática y Matemáticas, Escuela Técnica Superior de Ingeniería, Investigación