13/02/2023

Un model lingüístic permet avaluar el sentiment dels textos escrits a les xarxes socials

Un equip investigador de la URV ha desenvolupat aquest sistema, que identifica el sentiment en el llenguatge avaluatiu. Els resultats de la seva recerca s’han publicat a la revista científica Mathematics

Paraules que utilitzem cada dia en qualsevol àmbit com ràpid, lent, bonic, calent o normal porten implícita una càrrega d’informació que cada vegada importa més a empreses i organitzacions. El llenguatge avaluatiu, el que s’utilitza cada dia, és una de les produccions de la llengua que fa que les interaccions comunicatives esdevinguin interessants, ja que aporten informació essencial. L’anàlisi de sentiment és un àmbit que ha rebut gran atenció en els darrers anys degut a l’ús massiu de les xarxes socials. L’ús d’aquestes comunitats virtuals ha generat grans quantitats de text avaluatiu produït pels usuaris al voltant de tot tipus de productes i serveis. Davant l’interès que ha despertat l’anàlisi d’aquests textos, un equip investigador del Departament de Filologies Romàniques de la URV ha desenvolupat una tècnica que inclou diferents mètodes matemàtics i lingüístics i que aconsegueix modelar formalment els enunciats avaluatius i captar o extreure el sentiment (o la valoració) que hi ha darrere d’aquestes expressions lingüístiques de naturalesa difusa. El resultat de la seva recerca, que s’ha fet en col·laboració amb el centre d’excel·lència IRAFM de la República Txeca, s’ha publicat a la revista científica Mathematics.

Per analitzar el sentiment s’utilitzen eines computacionals que detecten i avaluen el llenguatge valoratiu, en termes de polaritat, es a dir: classifiquen automàticament els textos en funció de la connotació positiva o negativa del llenguatge utilitzat. Amb aquesta anàlisi s’intenta determinar l’actitud d’una persona respecte a un tema. L’actitud pot ser un judici o avaluació, el seu estat afectiu (estat emocional de l’autor quan escriu), o la intenció comunicativa emocional (l’efecte emocional que l’autor intenta causar en el lector). El desenvolupament d’aquestes eines d’anàlisi de sentiment requereix models formals que puguin descriure el llenguatge avaluatiu en termes que una màquina sigui capaç de processar.

Es diu que el llenguatge avaluatiu és difús o vague, ja que és molt difícil delimitar-ne el significat de paraules quotidianes com bé, malament, gran, petit, estimar, odiar, etc. Per exemple, un nen de 5 anys pot ser “alt” si fa 130 cm, i un jugador adult de bàsquet, en canvi, és “alt” si fa 220 cm. Aquesta variabilitat també es pot trobar entre cultures: per exemple, el significat final de l’adjectiu “alt” és segurament diferent en la concepció nord-americana i en la japonesa. Tot i que el significat final és diferent, tothom pot entendre que “alt” significa valor elevat en una escala d’altura. Un model per caracteritzar aquesta “borrositat” en el significat és un model difús, i aquesta és la base de la proposta de d’aquesta recerca, encapçalada per Adrià Torrens i María Dolores Jiménez, del Grup de Recerca en Lingüística Matemàtica del Departament de Filologies Romàniques de la URV, juntament amb Vilém Novák, de la Universitat d’Ostrava, a la República Txeca.

L’equip investigador format per Adrià Torrens i María Dolores Jiménez ha impulsat aquesta recerca.

Modelar formalment els enunciats avaluatius i captar o extreure el sentiment (o la valoració) que hi ha darrere d’aquestes expressions lingüístiques és, sens dubte, un repte. Normalment, per a aquestes tasques s’utilitzen tant algorismes d’aprenentatge automàtic com tècniques de diccionari (conegudes com a “bossa de paraules”).

Els algoritmes d’aprenentatge se centren en aspectes de rendiment computacional. En general, aquestes tècniques no aporten prou característiques des del punt de vista dels processos lingüístics. Amb aquesta recerca es pretén presentar un nou enfocament basat en un model formal interdisciplinari que identifiqui i analitzi la naturalesa difusa i la informació vaga de les expressions avaluatives abordant molts dels seus matisos i oferint una idiosincràsia “explicativa”.

El model que proposa aquest equip investigador combina una gramàtica de propietats i un model de lògica difusa. La gramàtica de propietats estableix les restriccions/condicions que una estructura lingüística ha de complir per ser adequada. El model difús permet captar la vaguetat d’aquestes expressions (“alt” pot significar 130 cm o 220 cm), així com determinar el grau de positivitat i/o negativitat d’una expressió (qualsevol paraula pot ser més o menys positiva o negativa en funció del context en el qual sigui emprada). Es preveu que aquest model tingui múltiples aplicacions i un impacte important en àmbits com la mineria de dades, eines d’autoaprenentatge de llengües, detectors automàtics d’autoria, etc.

La recerca no s’acaba aquí. Segons l’equip investigador, el següent pas és dur a terme un projecte interdisciplinari amb professionals de la psicologia, enginyeria computacional, lingüística i lexicografia per a la construcció d’un conjunt de nuclis avaluatius que es puguin aplicar en les anàlisis de sentiment, similar al projecte de WordNet que es va desenvolupar a la Universitat de Princeton. “Això ajudaria a poder identificar llenguatge violent, i també tindria beneficis per a les anàlisis de dades en el sector serveis, turisme, i en la detecció de problemes cognitius en relació amb el nivell semàntic del llenguatge”, expliqua María Dolores Jiménez, una de les investigadores implicades en aquesta recerca.

Referència bibliogràfica: Torrens-Urrutia, A., Novák, V., & Jiménez-López, M. D. (2022). Describing Linguistic Vagueness of Evaluative Expressions Using Fuzzy Natural Logic and Linguistic Constraints. Mathematics, 10(15), 2760. https://www.mdpi.com/2227-7390/10/15/2760

Subscriu-te als butlletins de la URV

Arxivat a: Ciència i tecnologia, ComCiència, Departament de Filologies Romàniques, Facultat de Lletres, Grups de recerca, Recerca