06/02/2025

Evidencien les limitacions dels models d’IA en la comprensió del llenguatge

La recerca compara el rendiment de set models d’IA amb el de 400 humans en tasques de comprensió i revela una manca d’estabilitat i precisió en les respostes

Un equip investigador internacional liderat per la URV ha analitzat les capacitats de set models d’intel·ligència artificial (IA) en la comprensió del llenguatge i les ha comparades amb les dels humans. Els resultats mostren que, malgrat el seu èxit en algunes tasques específiques, els models no assoleixen un nivell comparable al de les persones en proves senzilles de comprensió de textos. “La capacitat dels models per dur a terme tasques complexes no garanteix que siguin competents en tasques senzilles” avisen.

Els models de llenguatge extensos (MLE) són xarxes neuronals dissenyades per generar textos de manera autònoma a partir d’un requeriment de l’usuari. Estan especialitzats en tasques com la generació de respostes a consultes generals, la traducció de textos, la resolució de problemes o la síntesi de continguts. S’afirma sovint que aquests models tenen capacitats similars a les humanes, en termes de comprensió i raonament, però els resultats de la recerca liderada per Vittoria Dentella, investigadora del Grup de Recerca en Llengua i Lingüística de la URV, evidencien les seves limitacions: “Els MLE no comprenen realment el llenguatge, sinó que simplement aprofiten els patrons estadístics presents en les seves dades d’entrenament.”

Per tal de comparar el rendiment d’humans i MLE en la comprensió de textos, els investigadors van formular 40 preguntes a set models d’IA —Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 i Mixtral—, utilitzant estructures gramaticals simples i verbs d’ús freqüent. D’altra banda, es va sotmetre un grup de 400 persones, totes parlants natives d’anglès, a les mateixes preguntes i es va comparar la precisió de les seves respostes amb les dels MLE. Cada pregunta es va repetir tres vegades, per avaluar la consistència de les respostes.

La mitjana d’encerts dels humans va ser del 89%, força superior a la dels models d’IA, el millor dels quals (ChatGPT-4) va oferir un 83% de respostes correctes. Els resultats evidencien una gran diferència en el rendiment de les tecnologies de comprensió de textos: excepte ChatGPT-4, cap dels MLE va assolir una  precisió superior al 70%. Els humans també van ser més consistents davant les preguntes repetides, mantenint les respostes en un 87% dels casos. Els models de comprensió de textos, en canvi, van registrar una estabilitat que va oscil·lar entre el 66% i el 83%.

“Tot i que els MLE poden generar textos gramaticalment correctes i aparentment coherents, els resultats d’aquest estudi suggereixen que, en el fons, no entenen el significat del llenguatge de la manera que ho fa un humà”, explica Dentella. En realitat, els models de llenguatge extensos no interpreten el significat de la manera què ho fa una persona —integrant elements semàntics, gramaticals, pragmàtics i contextuals. Funcionen identificant patrons en els textos, comparant-los amb els que presenta la informació amb la qual han estat entrenats i mitjançant algorismes predictius basats en estadístiques. L’aparença humana és, per tant, una il·lusió.

Això es tradueix en dificultats per mantenir un criteri estable en les respostes, especialment quan es sotmet els models a preguntes repetides, dificultats que han registrat els resultats de l’estudi. També explica per què els models ofereixen respostes que no només són incorrectes, sinó que denoten una manca de comprensió del context o del significat d’un concepte. És per això que, tal i com adverteix Dentella, aquesta tecnologia no és encara prou fiable per a ser utilitzada en algunes aplicacions crítiques: “La nostra recerca demostra que les capacitats dels MLE per dur a terme tasques complexes no garanteix que siguin competents en tasques senzilles, que sovint són les que requereixen una comprensió real del llenguatge”.

Referència: Dentella, V., Günther, F., Murphy, E. et al. Testing AI on language comprehension tasks reveals insensitivity to underlying meaning. Sci Rep 14, 28083 (2024). https://doi.org/10.1038/s41598-024-79531-8

Print Friendly, PDF & Email
Subscriu-te als butlletins de la URV

Comenta

*