Notas de prensa 09/07/2025
Eliminar información de los modelos de IA es más difícil de lo que parece
Un estudio de la URV evidencia las limitaciones del desaprendizaje en inteligencia artificial y alerta de que es necesario desarrollar nuevos métodos que faciliten la eliminación de datos sensibles
Un estudio de la URV evidencia las limitaciones del desaprendizaje en inteligencia artificial y alerta de que es necesario desarrollar nuevos métodos que faciliten la eliminación de datos sensibles
Investigadores de la Universidad Rovira i Virgili han estudiado la efectividad de las técnicas de desaprendizaje en modelos de inteligencia artificial. Estas estrategias buscan eliminar datos personales —pero también incorrectos o discriminatorios— de los modelos de lenguaje extensos como ChatGPT, Mixtral, Bard o Copilot, entre otros. El análisis revela que, actualmente, no existe un método que garantice un olvido total e irreversible, más allá de entrenar el modelo de nuevo sin los datos de los que se quiere prescindir, un proceso muy costoso e ineficiente. Esto crea un conflicto con el derecho al olvido, garantizado por la legislación europea, que obliga a eliminar los datos personales de las personas si lo solicitan. La solución a esta incompatibilidad, defienden, pasa por diseñar nuevas formas de entrenar los modelos que faciliten el desaprendizaje con garantías.
El rendimiento de los modelos de inteligencia artificial (IA) —también llamados modelos de lenguaje extensos (MLE)— depende de los datos con los que han sido entrenados. Las compañías que los gestionan los alimentan con toda la información que pueden, tan diversa como les resulta posible, para hacerlos más potentes y, sobre todo, mejores que los de la competencia. Se trata de modelos enormes, con miles de millones de parámetros y que saben muchas, muchas cosas. «En algunos casos incluso saben cosas que, por diversos motivos, no conviene que sepan», explica Josep Domingo, investigador del Departamento de Ingeniería Informática y Matemáticas y coautor de la investigación.

¿Qué pasa, pues, cuando un modelo de IA se ha alimentado con obras protegidas por derechos de autor? ¿Podría imitar el estilo de un escritor determinado y escribir una secuela del best-seller de moda? Y, si el modelo tiene información personal, ¿sabe si alguien ha estado enfermo, si ha pedido una baja laboral o si acaba de comprarse, por ejemplo, un piso? Por suerte disponemos de mecanismos legales para proteger todos estos datos, como la Ley de la Propiedad Intelectual española o el Reglamento General de Protección de Datos de la Unión Europea (RGPD).
El RGPD, que regula el tratamiento de los datos personales de cualquier persona física de la Unión Europea, recoge, entre otros aspectos, el derecho al olvido. Por lo tanto, ante cualquier petición de eliminar datos personales de sus sistemas, los gestores de esta información deben prescindir de ellos. Y eso incluye a todas las compañías con modelos de IA que operan en Europa. Sin embargo, la manera en que han sido configurados estos modelos hace que eliminar datos específicos sea un reto técnico mucho más complejo de lo que podría parecer.
Ante este escenario, investigadores del Grupo de Investigación CRISES han estudiado la capacidad de los modelos de lenguaje extensos para desaprender y el coste computacional que les supone hacerlo. Hay, principalmente, dos aproximaciones para eliminar conocimientos de un modelo de IA. La primera opción es la más rudimentaria e implica eliminar todos los conocimientos y entrenar el modelo de nuevo sin los datos de que se quiere prescindir. «Es un proceso poco práctico y muy costoso en términos computacionales pero, hoy por hoy, es la única manera de garantizar el olvido al cien por cien», reconoce David Sánchez, investigador del Departamento de Ingeniería Informática y Matemáticas y coautor de la investigación.
La otra manera de abordar el desaprendizaje implica que el modelo olvide cierta información específica, evitando empezar de nuevo cada vez que hay que eliminar información. El problema de fondo, según los investigadores, es que no se sabe muy bien cómo funcionan los MLE —ni siquiera quienes los han diseñado. Aunque se sabe cómo entrenarlos y cómo hacerlos más eficientes y precisos, no hay ninguna manera de saber en qué región del modelo reside una información concreta. Sánchez, sin embargo, alerta de que estos métodos, aunque mucho más eficientes, no aseguran totalmente el desaprendizaje y recuerda que el Reglamento es muy claro y requiere garantías.
Un conflicto entre ley y tecnología
Los resultados del estudio ponen de manifiesto que, actualmente, existe un conflicto entre la legislación y la tecnología disponible: si bien es posible eliminar datos personales de los modelos de IA, las técnicas que ofrecen garantías son «espantosamente costosas». En este sentido, Domingo puntualiza que el interés de los gestores de estos modelos para implementar con garantías el desaprendizaje depende de las peticiones de los usuarios: «Si la gente ve que estos modelos contienen datos personales y empieza a haber peticiones para que las olviden, podrían tener problemas». Los propietarios de los MLE que operan en Europa deberán tener en cuenta el RGPD y su derecho al olvido, y eso pasa por hacer que el desaprendizaje sea asumible y rentable desde un punto de vista computacional y económico.
La opinión de los investigadores de la URV es que, para encontrar formas de desaprendizaje más eficientes, hay que entrenar los modelos pensando en el desaprendizaje. Actualmente, se entrena los MLE alimentándolos con todos los datos a la vez, pero existen varias alternativas, que aún deben desarrollarse. Algunas, por ejemplo, implican fragmentar los datos y alimentar versiones sucesivas del modelo de manera que, ante una petición de olvido, sea posible recuperar una versión anterior sin un conocimiento determinado y entrenarla. Otras tienen que ver con la estructura del sistema y se basan en el aprendizaje modular, que permite extraer partes del modelo donde hay información concreta sin afectar al resto de la información guardada ni a las capacidades que el modelo puede retener legítimamente.
Esta investigación forma parte del proyecto HERMES, una iniciativa finanzada por el Instituto Nacional de Ciberseguridad (INCIBE) con fondos europeos Next Generation y por la URV.
Referencia: Blanco-Justicia, A., Domingo-Ferrer, J., Jebreel, N. M., Manzanares-Salor, B., & Sánchez, D. (2025). Unlearning in Large Language Models: We Are Not There Yet. IEEE Computer Society. https://doi.org/10.1109/MC.2024.3468588
