03/05/2023

L’aplicació d’un nou mètode de protecció de la privadesa utilitzat pel cens americà és innecessari i perjudicial

Experts de la URV apunten que aquest mètode redueix significativament la qualitat de les dades, refuten que els mecanismes tradicionals suposin un risc per a la privacitat i demanen a les institucions no caure en el seguidisme

L’any 2020, com cada decenni, l’United States Census Bureau (USCB) va publicar el Decennial Census, el recompte de població i habitatge que inclou tots els cinquanta estats, el Districte de Columbia, Puerto Rico i les Àrees Insulars. Es tracta d’una mena de padró, en què els resultats de l’informe determinen el nombre d’escons per cada estat a la Cambra de Representants dels Estats Units i ajuden a delimitar àrees per distribuir centenars de milers de milions de dòlars en fons federals cada any. Donat que les dades recollides són de caràcter personal, tradicionalment l’USCB ha anat aplicant mecanismes de protecció de la privadesa que resultaven efectius tant per aconseguir l’anonimat de les persones com per mantenir la qualitat de les dades publicades. Però, en aquesta edició, l’USCB ha implementat canvis significatius en el mètode de protecció que han resultat ser polèmics. I és que, a les dades publicades per l’agència estadística més important del món, es comptabilitzen de manera errònia a gairebé 10 milions de residents, comptant dues vegades a més de 5 milions de persones i passant-ne moltes d’altres per alt, segons un article del New York Times.

Aquestes desviacions han estat causades per l’ús d’un nou mètode de protecció de la privadesa anomenat “privadesa diferencial”. Segons els investigadors del grup de recerca CRISES de la URV Josep Domingo-Ferrer i David Sánchez, aquest mètode ja havia estat utilitzat prèviament per grans companyies privades, amb resultats qüestionables. “Hi ha dues maneres d’aplicar la privadesa diferencial: o ho fas com toca i distorsiones significativament les dades, com ha fet l’USCB, o ets més permissiu pel tal de conservar-les, com han fet Apple o Google, però llavors no aconsegueixes cap garantia de privadesa”, explica el professor Sánchez.

Llavors, per què una institució amb més de 120 anys d’història de recollida de dades i d’elaboració de censos utilitzaria un mètode tan destructiu? Doncs perquè es tracta d’un mètode de protecció molt mediàtic, una mena de “segell de garantia”, que s’ha associat durant els darrers anys a alts nivells de privadesa i que ha captat l’atenció de molts investigadors i professionals que l’utilitzen, moltes vegades, de manera ”incondicional”. Domingo-Ferrer adverteix que és un mètode concebut per tractar “certs tipus de dades” i que no es pot utilitzar en qualsevol situació: “És com els cotxes; no se t’acudiria conduir un esportiu per una pista de muntanya, però no per això deixa de ser un bon cotxe”.

D’esquerra a dreta: Josep Domingo-Ferrer i David Sánchez, investigadors del grup de recerca CRISES de la URV.

Més recentment, i en resposta al clamor de la comunitat acadèmica dels Estats Units —que ha vist com les dades del cens de què disposa per dur a terme les seves investigacions són molt més imprecises que les d’anys anteriors—, els creadors de la privadesa diferencial van publicar un article a la revista científica PNAS on defensaven que, de no utilitzar el seu sistema, era possible reconstruir les dades personals de certs ciutadans nord-americans a partir del cens publicat. En el seu article recentment publicat a la mateixa revista, Domingo-Ferrer i Sánchez critiquen aquesta postura. “Al contrari del què s’afirma a l’article original, no és possible reconstruir la informació privada dels individus de manera unívoca; hi ha un gran nombre de reconstruccions d’escenaris possibles que són compatibles amb les estadístiques publicades al cens”, afirma Domingo-Ferrer. Si bé és cert que utilitzant certs mètodes estadístics es poden deduir aquelles reconstruccions que és més probable que corresponguin a les dades originals, això no suposa una vulneració de la privadesa perquè les reconstruccions més probables són les que tenen valors més comuns entre la població, amb la qual cosa és difícil que es puguin associar a cap ciutadà en concret.

Pel que fa a les conseqüències de l’ús de la privacitat diferencial, no totes són de caràcter institucional. Sánchez assenyala que les dades publicades per organismes oficials s’utilitzen àmpliament en el món acadèmic i avisa què les conclusions de les recerques posteriors poden deixar de ser vàlides o, directament, la recerca que se’n deriva pot deixar de tenir sentit. Els mètodes de privadesa també juguen un paper important en el desenvolupament de tecnologies d’aprenentatge automàtic, que s’entrenen, en gran part, a partir de dades personals. Els investigadors del grup CRISES ja van demostrar que l’ús de la privadesa diferencial en aquest àmbit és innecessari i avisen que faria retrocedir la qualitat dels models d’intel·ligència artificial de forma significativa. “No hem de renunciar a la precisió d’aquests models per disposar de l’etiqueta de la privadesa diferencial quan aquesta no és necessària”, afirma Sánchez.

A Domingo-Ferrer i Sánchez, igual que a molts d’altres acadèmics del seu àmbit, els preocupa especialment la temptació de seguidisme per part de les institucions, especialment les de països europeus. Els instituts d’estadística oficial de cada país són una font d’informes, censos i altres publicacions que constitueixen la matèria prima de gran part de la recerca científica. “No hi ha un perill imminent de reconstrucció d’informació privada que justifiqui l’ús d’aquest mètode”, defensen. El què sí que és perillós, afirmen, és que es prengui com a exemple el camí que ha pres l’United States Census Bureau en matèria de protecció de dades. En aquest sentit, demanen a institucions i a experts que no adoptin mètodes tan destructius si no és necessari.

Subscriu-te als butlletins de la URV

Arxivat a: Ciència i tecnologia, Departament d'Enginyeria Informàtica i Matemàtiques, Escola Tècnica Superior d'Enginyeria, Recerca