Notes de premsa 09/07/2025
Eliminar informació dels models d’IA és més difícil del que sembla
Un estudi de la URV evidencia les limitacions del desaprenentatge en intel·ligència artificial i alerta que cal desenvolupar nous mètodes que facilitin l’eliminació de dades sensibles
Un estudi de la URV evidencia les limitacions del desaprenentatge en intel·ligència artificial i alerta que cal desenvolupar nous mètodes que facilitin l’eliminació de dades sensibles
Investigadors de la Universitat Rovira i Virgili han estudiat l’efectivitat de les tècniques de desaprenentatge en models d’intel·ligència artificial. Aquestes estratègies busquen eliminar dades personals —però també incorrectes o discriminatòries— dels models de llenguatge extensos com ChatGPT, Mixtral, Bard o Copilot, entre d’altres. L’anàlisi revela que actualment no hi ha cap un mètode que garanteixi un oblit total i irreversible, més enllà d’entrenar el model de nou sense les dades de què es vol prescindir, un procés molt costós i ineficient. Això crea un conflicte amb el dret a l’oblit, garantit per la legislació europea, que obliga a eliminar les dades personals de les persones si ho demanen. La solució a aquesta incompatibilitat, defensen, passa per dissenyar noves formes d’entrenar els models que facilitin el desaprenentatge amb garanties.
El rendiment dels models d’intel·ligència artificial (IA) —també anomenats models de llenguatge extensos (MLE)— depèn de les dades amb què han estat entrenats. Les companyies que els gestionen els alimenten amb tota la informació que poden, tan diversa com els resulta possible, per fer-los més potents i, sobretot, millors que els de la competència. Es tracta de models enormes, amb milers de milions de paràmetres i que saben moltes, moltes coses. “En alguns casos fins i tot saben coses que, per diversos motius, no convé que sàpiguen”, explica Josep Domingo, investigador del Departament d’Enginyeria Informàtica i Matemàtiques i coautor de la recerca.

Què passa, doncs, quan un model d’IA s’ha alimentat amb obres protegides per drets d’autor? Podria imitar l’estil d’un escriptor determinat i escriure una seqüela del best-seller de moda? I, si el model té informació personal, sap si algú ha estat malalt, si ha demanat una baixa laboral o si acaba de comprar-se, per exemple, un pis? Per sort disposem de mecanismes legals per protegir totes aquestes dades, com ara la Llei de la propietat intel·lectual espanyola o el Reglament general de protecció de dades de la Unió Europea (RGPD).
El RGPD, que regula el tractament de les dades personals de qualsevol persona física de la Unió Europea, recull, entre d’altres aspectes, el dret a l’oblit. Per tant, arran de qualsevol petició d’eliminar dades personals dels seus sistemes, els gestors d’aquesta informació han de prescindir-ne. I això inclou totes les companyies amb models d’IA que operen a Europa. Tanmateix, la manera com s’han configurat aquests models fa que eliminar dades específiques sigui un repte tècnic molt més complex del que podria semblar.
Davant d’aquest escenari, investigadors del grup de recerca CRISES han estudiat la capacitat dels models de llenguatge extensos per desaprendre i el cost computacional que els suposa fer-ho. Principalment, hi ha dues aproximacions per eliminar coneixements d’un model d’IA. La primera opció és la més rudimentària i implica suprimir tots els coneixements i entrenar el model de nou sense les dades de què es vol prescindir. “Es un procés poc pràctic i molt costós en termes computacionals però, ara per ara, és l’única manera de garantir l’oblit al cent per cent”, reconeix David Sánchez, investigador del Departament d’Enginyeria Informàtica i Matemàtiques i coautor de la recerca.
L’altra manera de tractar el desaprenentatge implica que el model oblidi certa informació específica, i evitar començar de nou cada vegada que cal eliminar informació. El problema de fons, segons els investigadors, és que no se sap ben bé com funcionen els MLE —ni tan sols els qui els han dissenyat. Tot i que se sap com es poden entrenar i com es poden fers més eficients i precisos, no hi ha cap manera de saber en quina regió del model es troba una informació concreta. Sanchez, però, alerta que aquests mètodes, tot i que molt més eficients, no asseguren totalment el desaprenentatge i recorda que el Reglament és molt clar i requereix garanties.
Un conflicte entre llei i tecnologia
Els resultats de l’estudi posen de manifest que existeix un conflicte entre la legislació i la tecnologia disponible: si bé és possible eliminar dades personals dels models d’IA, les tècniques que ofereixen garanties són “espantosament costoses”. En aquest sentit, Domingo puntualitza que l’interès dels gestors d’aquests models per implementar amb garanties el desaprenentatge depèn de les peticions dels usuaris: “Si la gent veu que aquests models contenen dades personals i comença a haver-hi peticions perquè les oblidin, podrien tenir problemes”. Els propietaris dels MLE que operen a Europa hauran de tenir en compte el RGPD i el seu dret a l’oblit, i això implica que el desaprenentatge ha de ser assumible i rendible des d’un punt de vista computacional i econòmic.
Segons els investigadors de la URV, per trobar formes de desaprenentatge més eficients, cal entrenar els models pensant en aquest procés . Actualment, s’entrena els MLE alimentant-los amb totes les dades de cop, però hi ha diverses alternatives que encara s’han de desenvolupar. Algunes, per exemple, impliquen fragmentar les dades i alimentar versions successives del model, de manera que, arran d’una petició d’oblit sigui possible recuperar una versió anterior sense coneixement determinat i entrenar-la. D’altres tenen a veure amb l’estructura del sistema i es basen en l’aprenentatge modular, que permet extreure parts del model on hi ha informació concreta sense afectar la resta de la informació guardada ni les capacitats que el model pot retenir legítimament.
Aquesta recerca forma part del projecte HERMES, una iniciativa finançada per l’Institut Nacional de Ciberseguretat (INCIBE) amb fons europeus Next Generation i per la URV.
Referència: Blanco-Justicia, A., Domingo-Ferrer, J., Jebreel, N. M., Manzanares-Salor, B., & Sánchez, D. (2025). Unlearning in Large Language Models: We Are Not There Yet. IEEE Computer Society. https://doi.org/10.1109/MC.2024.3468588
