Press room

Tools and resources for the professionals of communication
Press notes 09/07/2025

Removing information from AI models is more difficult than it sounds

A URV study highlights the limitations of unlearning in artificial intelligence and warns that new methods need to be developed to facilitate the removal of sensitive data

Researchers at the Universitat Rovira i Virgili have studied the effectiveness of unlearning techniques in artificial intelligence models. These strategies seek to eliminate personal, incorrect or discriminatory data from large language models such as ChatGPT, Mixtral, Bard or Copilot, among others. The analysis reveals that there is currently no method that guarantees total and irreversible erasure, other than retraining the model without the data in question, a very costly and inefficient process. This creates a conflict with the right to be forgotten, which is enshrined in European legislation and which obliges data controllers to delete people’s personal data upon request. The solution to this incompatibility, they argue, is to design new ways of training models that facilitate unlearning with guarantees.

The performance of artificial intelligence (AI) models – also called large language models (LLMs) – depends on the data they are trained on. The companies that run them feed them with as much information as they can from as wide a range of sources as possible to make them more powerful and, above all, better than their competitors. These are huge models with billions of parameters and they know many, many things. “In some cases, they even know things that, for various reasons, they should not know,” explains Josep Domingo, researcher at the Department of Computer Engineering and Mathematics and co-author of the research.

David Sánchez i Josep Domingo, investigadors del Departament d’Enginyeria Informàtica i Matemàtiques, autors de la recerca.

So what happens when an AI model has been fed with copyrighted works – could it mimic the style of a particular writer and write a sequel to the latest bestseller? And, if the model has personal information, does it know if someone has been ill, taken sick leave or just bought, say, a flat? Fortunately, we have legal mechanisms to protect all this data, such as the Spanish Intellectual Property Law or the European Union’s General Data Protection Regulation (GDPR).

The GDPR regulates the processing of personal data of any natural person in the European Union and includes, among other aspects, the right to be forgotten. Therefore, when data controllers receive any request to remove personal data from their systems, they have to comply. And that includes all companies with AI models operating in Europe. However, the way these models have been configured makes deleting specific data a much more complex technical challenge than it might seem.

Against this backdrop, researchers from the CRISES Research Group have studied the ability of large language models to unlearn and the computational cost of doing so. There are mainly two approaches to removing knowledge from an AI model. The first option is the most rudimentary and involves removing all the knowledge and training the model again without the data that you want to eliminate. “This is an impractical and computationally very costly process, but it is currently the only way to guarantee one hundred per cent removal,” says David Sánchez, researcher at the Department of Computer Engineering and Mathematics and co-author of the study.

The other approach to unlearning involves getting the model to forget specific information, which avoids the need to retrain the model from scratch every time some information needs to be removed. The underlying problem, according to the researchers, is that nobody fully understands how LLMs work, not even the people who have designed them. Although it is known how to train them and how to make them more efficient and accurate, there is no way of knowing in which region of the model a particular piece of information resides. Sánchez warns, however, that the aforementioned methods, although much more efficient, do not fully ensure unlearning and reminds us that the Regulation is very clear and requires absolute safeguards to be put in place.

A conflict between law and technology

The results of the study show that there is currently a conflict between the legislation and the available technology: that is, while it is possible to remove personal data from AI models, the only techniques that guarantee its removal are “frighteningly expensive”. In this regard, Domingo points out that the administrators of these models will only implement guaranteed unlearning if so requested by lots of users: “If people see that these models contain their personal data and they start to request to be forgotten, the companies could have problems”. LLM owners operating in Europe will need to take into account the GDPR and its right to be forgotten, and that means making unlearning affordable and cost-effective from a computational and economic point of view.

The URV researchers believe that in order to find more efficient ways of unlearning, the models must first be trained with unlearning in mind. Currently, LLMs are trained by feeding them all the data at once, but there are several alternatives, which still need to be developed. Some, for example, involve fragmenting the data and feeding it piecemeal to successive versions of the model so that, if a request to be forgotten is received, it is possible to retrieve an earlier version of the model that does not have the knowledge question. Others have to do with the structure of the system and are based on modular learning, which allows parts of the model with specific information to be extracted without affecting the rest of the information stored or the capabilities that the model can legitimately retain.

09/07/2025

Eliminar informació dels models d’IA és més difícil del que sembla

Un estudi de la URV evidencia les limitacions del desaprenentatge en intel·ligència artificial i alerta que cal desenvolupar nous mètodes que facilitin l’eliminació de dades sensibles

Investigadors de la Universitat Rovira i Virgili han estudiat l’efectivitat de les tècniques de desaprenentatge en models d’intel·ligència artificial. Aquestes estratègies busquen eliminar dades personals —però també incorrectes o discriminatòries— dels models de llenguatge extensos com ChatGPT, Mixtral, Bard o Copilot, entre d’altres. L’anàlisi revela que actualment no hi ha cap un mètode que garanteixi un oblit total i irreversible, més enllà d’entrenar el model de nou sense les dades de què es vol prescindir, un procés molt costós i ineficient. Això crea un conflicte amb el dret a l’oblit, garantit per la legislació europea, que obliga a eliminar les dades personals de les persones si ho demanen. La solució a aquesta incompatibilitat, defensen, passa per dissenyar noves formes d’entrenar els models que facilitin el desaprenentatge amb garanties.

El rendiment dels models d’intel·ligència artificial (IA) —també anomenats models de llenguatge extensos (MLE)— depèn de les dades amb què han estat entrenats. Les companyies que els gestionen els alimenten amb tota la informació que poden, tan diversa com els resulta possible, per fer-los més potents i, sobretot, millors que els de la competència. Es tracta de models enormes, amb milers de milions de paràmetres i que saben moltes, moltes coses. “En alguns casos fins i tot saben coses que, per diversos motius, no convé que sàpiguen”, explica Josep Domingo, investigador del Departament d’Enginyeria Informàtica i Matemàtiques i coautor de la recerca.

David Sánchez i Josep Domingo, investigadors del Departament d’Enginyeria Informàtica i Matemàtiques, autors de la recerca.

Què passa, doncs, quan un model d’IA s’ha alimentat amb obres protegides per drets d’autor? Podria imitar l’estil d’un escriptor determinat i escriure una seqüela del best-seller de moda? I, si el model té informació personal, sap si algú ha estat malalt, si ha demanat una baixa laboral o si acaba de comprar-se, per exemple, un pis? Per sort disposem de mecanismes legals per protegir totes aquestes dades, com ara la Llei de la propietat intel·lectual espanyola o el Reglament general de protecció de dades de la Unió Europea (RGPD).

El RGPD, que regula el tractament de les dades personals de qualsevol persona física de la Unió Europea, recull, entre d’altres aspectes, el dret a l’oblit. Per tant, arran de qualsevol petició d’eliminar dades personals dels seus sistemes, els gestors d’aquesta informació han de prescindir-ne. I això inclou totes les companyies amb models d’IA que operen a Europa. Tanmateix, la manera com s’han configurat aquests models fa que eliminar dades específiques sigui un repte tècnic molt més complex del que podria semblar.

Davant d’aquest escenari, investigadors del grup de recerca CRISES han estudiat la capacitat dels models de llenguatge extensos per desaprendre i el cost computacional que els suposa fer-ho. Principalment, hi ha dues aproximacions per eliminar coneixements d’un model d’IA. La primera opció és la més rudimentària i implica suprimir tots els coneixements i entrenar el model de nou sense les dades de què es vol prescindir. “Es un procés poc pràctic i molt costós en termes computacionals però, ara per ara, és l’única manera de garantir l’oblit al cent per cent”, reconeix David Sánchez, investigador del Departament d’Enginyeria Informàtica i Matemàtiques i coautor de la recerca.

L’altra manera de tractar el desaprenentatge implica que el model oblidi certa informació específica, i evitar començar de nou cada vegada que cal eliminar informació. El problema de fons, segons els investigadors, és que no se sap ben bé com funcionen els MLE —ni tan sols els qui els han dissenyat. Tot i que se sap com es poden entrenar i com es poden fers més eficients i precisos, no hi ha cap manera de saber en quina regió del model es troba una informació concreta. Sanchez, però, alerta que aquests mètodes, tot i que molt més eficients, no asseguren totalment el desaprenentatge i recorda que el Reglament és molt clar i requereix garanties.

Un conflicte entre llei i tecnologia

Els resultats de l’estudi posen de manifest que existeix un conflicte entre la legislació i la tecnologia disponible: si bé és possible eliminar dades personals dels models d’IA, les tècniques que ofereixen garanties són “espantosament costoses”. En aquest sentit, Domingo puntualitza que l’interès dels gestors d’aquests models per implementar amb garanties el desaprenentatge depèn de les peticions dels usuaris: “Si la gent veu que aquests models contenen dades personals i comença a haver-hi peticions perquè les oblidin, podrien tenir problemes”. Els propietaris dels MLE que operen a Europa hauran de tenir en compte el RGPD i el seu dret a l’oblit, i això implica que el desaprenentatge ha de ser assumible i rendible des d’un punt de vista computacional i econòmic.

Segons els investigadors de la URV, per trobar formes de desaprenentatge més eficients, cal entrenar els models pensant en aquest procés . Actualment, s’entrena els MLE alimentant-los amb totes les dades de cop, però hi ha diverses alternatives que encara s’han de desenvolupar. Algunes, per exemple, impliquen fragmentar les dades i alimentar versions successives del model, de manera que, arran d’una petició d’oblit sigui possible recuperar una versió anterior sense coneixement determinat i entrenar-la. D’altres tenen a veure amb l’estructura del sistema i es basen en l’aprenentatge modular, que permet extreure parts del model on hi ha informació concreta sense afectar la resta de la informació guardada ni les capacitats que el model pot retenir legítimament.

This research is part of the HERMES project, an initiative financed by the National Institute of Cybersecurity (INCIBE) with European Next Generation funds and by the URV.

Reference: Blanco-Justicia, A., Domingo-Ferrer, J., Jebreel, N. M., Manzanares-Salor, B., & Sánchez, D. (2025). Unlearning in Large Language Models: We Are Not There Yet. IEEE Computer Society. https://doi.org/10.1109/MC.2024.3468588

Print Friendly, PDF & Email
Subscribe to the URV newsletters