{"id":139679,"date":"2025-07-09T09:25:53","date_gmt":"2025-07-09T07:25:53","guid":{"rendered":"https:\/\/diaridigital.urv.cat\/?p=139679"},"modified":"2025-07-28T13:02:32","modified_gmt":"2025-07-28T11:02:32","slug":"eliminar-informacion-modelos-ia","status":"publish","type":"post","link":"https:\/\/diaridigital.urv.cat\/es\/eliminar-informacion-modelos-ia\/","title":{"rendered":"Eliminar informaci\u00f3n de los modelos de IA es m\u00e1s dif\u00edcil de lo que parece"},"content":{"rendered":"<p>Investigadores de la Universidad Rovira i Virgili han estudiado la efectividad de las t\u00e9cnicas de <em>desaprendizaje<\/em> en modelos de inteligencia artificial. Estas estrategias buscan eliminar datos personales \u2014pero tambi\u00e9n incorrectos o discriminatorios\u2014 de los modelos de lenguaje extensos como ChatGPT, Mixtral, Bard o Copilot, entre otros. El an\u00e1lisis revela que, actualmente, no existe un m\u00e9todo que garantice un olvido total e irreversible, m\u00e1s all\u00e1 de entrenar el modelo de nuevo sin los datos de los que se quiere prescindir, un proceso muy costoso e ineficiente. Esto crea un conflicto con el derecho al olvido, garantizado por la legislaci\u00f3n europea, que obliga a eliminar los datos personales de las personas si lo solicitan. La soluci\u00f3n a esta incompatibilidad, defienden, pasa por dise\u00f1ar nuevas formas de entrenar los modelos que faciliten el <em>desaprendizaje<\/em> con garant\u00edas.<\/p>\n<p>El rendimiento de los modelos de inteligencia artificial (IA) \u2014tambi\u00e9n llamados modelos de lenguaje extensos (MLE)\u2014 depende de los datos con los que han sido entrenados. Las compa\u00f1\u00edas que los gestionan los alimentan con toda la informaci\u00f3n que pueden, tan diversa como les resulta posible, para hacerlos m\u00e1s potentes y, sobre todo, mejores que los de la competencia. Se trata de modelos enormes, con miles de millones de par\u00e1metros y que saben muchas, muchas cosas. \u00abEn algunos casos incluso saben cosas que, por diversos motivos, no conviene que sepan\u00bb, explica Josep Domingo, investigador del Departamento de Ingenier\u00eda Inform\u00e1tica y Matem\u00e1ticas y coautor de la investigaci\u00f3n.<\/p>\n<figure id=\"attachment_139669\" aria-labelledby=\"figcaption_attachment_139669\" class=\"wp-caption alignnone\" style=\"width: 1024px\"><a href=\"https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-1024x682.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-139669\" src=\"https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-1024x682.jpg\" alt=\"\" width=\"1024\" height=\"682\" srcset=\"https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-1024x682.jpg 1024w, https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-300x200.jpg 300w, https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-768x512.jpg 768w, https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f-1536x1024.jpg 1536w, https:\/\/diaridigital.urv.cat\/wp-content\/uploads\/2025\/07\/IMG_2606f.jpg 2000w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/a><figcaption id=\"figcaption_attachment_139669\" class=\"wp-caption-text\">David S\u00e1nchez i Josep Domingo, investigadors del Departament d&#8217;Enginyeria Inform\u00e0tica i Matem\u00e0tiques, autors de la recerca.<\/figcaption><\/figure>\n<p>\u00bfQu\u00e9 pasa, pues, cuando un modelo de IA se ha alimentado con obras protegidas por derechos de autor? \u00bfPodr\u00eda imitar el estilo de un escritor determinado y escribir una secuela del best-seller de moda? Y, si el modelo tiene informaci\u00f3n personal, \u00bfsabe si alguien ha estado enfermo, si ha pedido una baja laboral o si acaba de comprarse, por ejemplo, un piso? Por suerte disponemos de mecanismos legales para proteger todos estos datos, como la Ley de la Propiedad Intelectual espa\u00f1ola o el Reglamento General de Protecci\u00f3n de Datos de la Uni\u00f3n Europea (RGPD).<\/p>\n<p>El RGPD, que regula el tratamiento de los datos personales de cualquier persona f\u00edsica de la Uni\u00f3n Europea, recoge, entre otros aspectos, el derecho al olvido. Por lo tanto, ante cualquier petici\u00f3n de eliminar datos personales de sus sistemas, los gestores de esta informaci\u00f3n deben prescindir de ellos. Y eso incluye a todas las compa\u00f1\u00edas con modelos de IA que operan en Europa. Sin embargo, la manera en que han sido configurados estos modelos hace que eliminar datos espec\u00edficos sea un reto t\u00e9cnico mucho m\u00e1s complejo de lo que podr\u00eda parecer.<\/p>\n<p>Ante este escenario, investigadores del Grupo de Investigaci\u00f3n CRISES han estudiado la capacidad de los modelos de lenguaje extensos para <em>desaprender<\/em> y el coste computacional que les supone hacerlo. Hay, principalmente, dos aproximaciones para eliminar conocimientos de un modelo de IA. La primera opci\u00f3n es la m\u00e1s rudimentaria e implica eliminar todos los conocimientos y entrenar el modelo de nuevo sin los datos de que se quiere prescindir. \u00abEs un proceso poco pr\u00e1ctico y muy costoso en t\u00e9rminos computacionales pero, hoy por hoy, es la \u00fanica manera de garantizar el olvido al cien por cien\u00bb, reconoce David S\u00e1nchez, investigador del Departamento de Ingenier\u00eda Inform\u00e1tica y Matem\u00e1ticas y coautor de la investigaci\u00f3n.<\/p>\n<p>La otra manera de abordar el <em>desaprendizaje <\/em>implica que el modelo olvide cierta informaci\u00f3n espec\u00edfica, evitando empezar de nuevo cada vez que hay que eliminar informaci\u00f3n. El problema de fondo, seg\u00fan los investigadores, es que no se sabe muy bien c\u00f3mo funcionan los MLE \u2014ni siquiera quienes los han dise\u00f1ado. Aunque se sabe c\u00f3mo entrenarlos y c\u00f3mo hacerlos m\u00e1s eficientes y precisos, no hay ninguna manera de saber en qu\u00e9 regi\u00f3n del modelo reside una informaci\u00f3n concreta. S\u00e1nchez, sin embargo, alerta de que estos m\u00e9todos, aunque mucho m\u00e1s eficientes, no aseguran totalmente el <em>desaprendizaje<\/em> y recuerda que el Reglamento es muy claro y requiere <em>garant\u00edas<\/em>.<\/p>\n<aside class=\"perfil_persona\">Existe un m\u00e9todo de <em>desaprendizaje<\/em> que funciona filtrando las respuestas del modelo de inteligencia artificial: el\u00a0<strong>olvido aparente.<\/strong>\u00a0De esta manera, el sistema trabaja de forma rutinaria pero, a la hora de proporcionar la informaci\u00f3n, retiene aquella de car\u00e1cter privado, sensible o inadecuado. Los investigadores afirman que, aunque a ojos del usuario es un m\u00e9todo aparentemente v\u00e1lido, la informaci\u00f3n problem\u00e1tica contin\u00faa almacenada y no se puede garantizar que, con la instrucci\u00f3n adecuada, el modelo no ofrezca los datos restringidos.<\/aside>\n<h5>Un conflicto entre ley y tecnolog\u00eda<\/h5>\n<p>Los resultados del estudio ponen de manifiesto que, actualmente, existe un conflicto entre la legislaci\u00f3n y la tecnolog\u00eda disponible: si bien es posible eliminar datos personales de los modelos de IA, las t\u00e9cnicas que ofrecen garant\u00edas son \u00abespantosamente costosas\u00bb. En este sentido, Domingo puntualiza que el inter\u00e9s de los gestores de estos modelos para implementar con garant\u00edas el <em>desaprendizaje<\/em> depende de las peticiones de los usuarios: \u00abSi la gente ve que estos modelos contienen datos personales y empieza a haber peticiones para que las olviden, podr\u00edan tener problemas\u00bb. Los propietarios de los MLE que operan en Europa deber\u00e1n tener en cuenta el RGPD y su derecho al olvido, y eso pasa por hacer que el <em>desaprendizaje<\/em> sea asumible y rentable desde un punto de vista computacional y econ\u00f3mico.<\/p>\n<p>La opini\u00f3n de los investigadores de la URV es que, para encontrar formas de <em>desaprendizaje<\/em> m\u00e1s eficientes, hay que entrenar los modelos pensando en el <em>desaprendizaje<\/em>. Actualmente, se entrena los MLE aliment\u00e1ndolos con todos los datos a la vez, pero existen varias alternativas, que a\u00fan deben desarrollarse. Algunas, por ejemplo, implican fragmentar los datos y alimentar versiones sucesivas del modelo de manera que, ante una petici\u00f3n de olvido, sea posible recuperar una versi\u00f3n anterior sin un conocimiento determinado y entrenarla. Otras tienen que ver con la estructura del sistema y se basan en el aprendizaje modular, que permite extraer partes del modelo donde hay informaci\u00f3n concreta sin afectar al resto de la informaci\u00f3n guardada ni a las capacidades que el modelo puede retener leg\u00edtimamente.<\/p>\n<p>Esta investigaci\u00f3n forma parte del <a href=\"https:\/\/diaridigital.urv.cat\/es\/proyecto-hermes-ciberseguridad\/\">proyecto HERMES<\/a>, una iniciativa finanzada por el Instituto Nacional de Ciberseguridad (INCIBE) con fondos europeos Next Generation y por la URV.<\/p>\n<p><strong>Referencia:<\/strong> Blanco-Justicia, A., Domingo-Ferrer, J., Jebreel, N. M., Manzanares-Salor, B., &amp; S\u00e1nchez, D. (2025). Unlearning in Large Language Models: We Are Not There Yet. IEEE Computer Society. <a href=\"https:\/\/doi.org\/10.1109\/MC.2024.3468588\">https:\/\/doi.org\/10.1109\/MC.2024.3468588<\/a><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Un estudio de la URV evidencia las limitaciones del desaprendizaje en inteligencia artificial y alerta de que es necesario desarrollar nuevos m\u00e9todos que faciliten la eliminaci\u00f3n de datos sensibles<\/p>\n","protected":false},"author":139,"featured_media":139677,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[117,102,3463,244,100,123],"tags":[],"class_list":["post-139679","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciencia-y-tecnologia","category-comunicacion-ciencia","category-ingenieria-informatica-matematicas","category-escuela-ingenieria","category-investigacion","category-notas-prensa"],"acf":[],"_links":{"self":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts\/139679","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/users\/139"}],"replies":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/comments?post=139679"}],"version-history":[{"count":0,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts\/139679\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/media\/139677"}],"wp:attachment":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/media?parent=139679"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/categories?post=139679"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/tags?post=139679"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}