{"id":133072,"date":"2025-02-06T10:10:08","date_gmt":"2025-02-06T09:10:08","guid":{"rendered":"https:\/\/diaridigital.urv.cat\/?p=133072"},"modified":"2025-02-06T10:10:59","modified_gmt":"2025-02-06T09:10:59","slug":"limitaciones-ia-comprension-lenguaje","status":"publish","type":"post","link":"https:\/\/diaridigital.urv.cat\/es\/limitaciones-ia-comprension-lenguaje\/","title":{"rendered":"Evidencian las limitaciones de los modelos de IA en la comprensi\u00f3n del lenguaje"},"content":{"rendered":"<p>Un equipo investigador internacional liderado por la URV ha analizado las capacidades de siete modelos de inteligencia artificial (IA) en la comprensi\u00f3n del lenguaje y las ha comparado con las de los humanos. Los resultados muestran que, a pesar de su \u00e9xito en algunas tareas espec\u00edficas, los modelos no alcanzan un nivel comparable al de las personas en pruebas sencillas de comprensi\u00f3n de textos. \u00abLa capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas\u00bb avisan.<\/p>\n<p>Los modelos extensos de lenguaje (MEL) son redes neuronales dise\u00f1adas para generar textos de manera aut\u00f3noma a partir de un requerimiento del usuario. Est\u00e1n especializados en tareas como la generaci\u00f3n de respuestas a consultas generales, la traducci\u00f3n de textos, la resoluci\u00f3n de problemas o la s\u00edntesis de contenidos. Se afirma a menudo que estos modelos tienen capacidades similares a las humanas, en t\u00e9rminos de comprensi\u00f3n y razonamiento, pero los resultados de la investigaci\u00f3n liderada por Vittoria Dentella, investigadora del Grupo de Investigaci\u00f3n en Lengua y Ling\u00fc\u00edstica de la URV, evidencian sus limitaciones: \u00abLos MEL no comprenden realmente el lenguaje; simplemente aprovechan los patrones estad\u00edsticos presentes en sus datos de entrenamiento.\u00bb<\/p>\n<aside class=\"perfil_persona\"><strong>Las redes neuronales<\/strong> son modelos computacionales que emulan las estructuras neuronales biol\u00f3gicas del cerebro. Constan de una serie de nodos conectados entre s\u00ed, llamados neuronas artificiales. Cada nodo recibe informaci\u00f3n de las otras neuronas, la procesa y la env\u00eda de nuevo. Vista desde fuera, una red neuronal acepta una informaci\u00f3n de entrada, la procesa y devuelve un resultado. Los investigadores deben entrenar la red con informaci\u00f3n que les es conocida para que, de forma autom\u00e1tica, aprenda a tratar los datos para ofrecer la respuesta esperada. Una vez entrenadas, son utilizadas en tareas de predicci\u00f3n, clasificaci\u00f3n y filtrado de datos, reconocimiento de patrones, etc.<\/aside>\n<p>Con el fin de comparar el rendimiento en la comprension de textos de humanos y MEL, los investigadores formularon 40 preguntas a siete modelos de IA \u2014Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral\u2014, utilizando estructuras gramaticales simples y verbos de uso frecuente. Por otro lado, se someti\u00f3 a un grupo de 400 personas, todos hablantes nativos de ingl\u00e9s, a las mismas preguntas y se compar\u00f3 la precisi\u00f3n de sus respuestas con las de los MEL. Cada pregunta se repiti\u00f3 tres veces, para evaluar la consistencia de las respuestas.<\/p>\n<p>La media de aciertos de los humanos fue del 89%, bastante superior a la de los modelos de IA, el mejor de los cuales (ChatGPT-4) ofreci\u00f3 un 83% de respuestas correctas. Los resultados evidencian una gran diferencia en el rendimiento de las tecnolog\u00edas de comprensi\u00f3n de textos: excepto ChatGPT-4, ninguno de los MLE alcanz\u00f3 una precisi\u00f3n superior al 70%. Los humanos tambi\u00e9n fueron m\u00e1s consistentes ante las preguntas repetidas, manteniendo las respuestas en un 87% de los casos. Los modelos de comprensi\u00f3n de textos, en cambio, registraron una estabilidad que oscil\u00f3 entre el 66% y el 83%.<\/p>\n<p>\u00abAunque los MLE pueden generar textos gramaticalmente correctos y aparentemente coherentes, los resultados de este estudio sugieren que, en el fondo, no entienden el significado del lenguaje de la forma en que lo hace un humano\u00bb, explica Dentella. En realidad, los modelos de lenguaje extensos no interpretan el significado como lo hace una persona \u2014integrando elementos sem\u00e1nticos, gramaticales, pragm\u00e1ticos y contextuales. Funcionan identificando patrones en los textos y compar\u00e1ndolos con los que presenta la informaci\u00f3n con la que han sido entrenados y mediante algoritmos predictivos basados en estad\u00edsticas. La apariencia humana es, por tanto, una ilusi\u00f3n.<\/p>\n<p>Esto se traduce en dificultades para mantener un criterio estable en las respuestas, especialmente cuando se somete el modelo a preguntas repetidas. Tambi\u00e9n explica por qu\u00e9 los modelos ofrecen respuestas que no s\u00f3lo son incorrectas, sino que denotan una falta de comprensi\u00f3n del contexto o del significado de un concepto. Es por ello que, tal y como advierte Dentella, esta tecnolog\u00eda no es todav\u00eda lo suficientemente fiable para ser utilizada en algunas aplicaciones cr\u00edticas: \u00abNuestra investigaci\u00f3n demuestra que las capacidades de los MEL para llevar a cabo tareas complejas no garantizan que sean competentes en tareas sencillas, que a menudo son las que requieren una comprensi\u00f3n real del lenguaje\u00bb.<\/p>\n<p>Referencia: Dentella, V., G\u00fcnther, F., Murphy, E. <em>et al.<\/em> Testing AI on language comprehension tasks reveals insensitivity to underlying meaning. <em>Sci Rep<\/em> <strong>14<\/strong>, 28083 (2024). <a href=\"https:\/\/doi.org\/10.1038\/s41598-024-79531-8\">https:\/\/doi.org\/10.1038\/s41598-024-79531-8<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La investigaci\u00f3n compara el rendimiento de siete modelos de IA con el de 400 humanos en tareas de comprensi\u00f3n y revela una falta de estabilidad y precisi\u00f3n en las respuestas<\/p>\n","protected":false},"author":139,"featured_media":133129,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[117,102,100,123],"tags":[],"class_list":["post-133072","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciencia-y-tecnologia","category-comunicacion-ciencia","category-investigacion","category-notas-prensa"],"acf":[],"_links":{"self":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts\/133072","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/users\/139"}],"replies":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/comments?post=133072"}],"version-history":[{"count":0,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/posts\/133072\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/media\/133129"}],"wp:attachment":[{"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/media?parent=133072"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/categories?post=133072"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/diaridigital.urv.cat\/es\/wp-json\/wp\/v2\/tags?post=133072"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}