Predicció de l’ús del català mitjançant la classificació supervisada

Francisco Grimaldo; Emilia López-Iñesta; Manel Perucho

Treballs de Sociolingüística Catalana (Jul 2020)

Predicció de l’ús del català mitjançant la classificació supervisada

Francisco Grimaldo,
Emilia López-Iñesta,
Manel Perucho

Affiliations

Francisco Grimaldo: Universitat de València
Emilia López-Iñesta: Universitat de València. Departament d’Informàtica
Manel Perucho: Universitat de València. Departament d’Astronomia i Astrofísica

Journal volume & issue: no. 26

Abstract

Read online

Un dels principals reptes que ha tingut i té la sociologia del llenguatge és esbrinar quines són les variables que influeixen en els usos lingüístics. En la recerca que presentem ens valem dels mètodes d’una àrea de la intel·ligència artificial, l’aprenentatge automàtic (machine learning), que estudia la implementació de mètodes computacionals que permeten induir models de coneixement a partir d’informació que prové de dades d’exemple disponibles, per a escatir si algun d’aquests millora la predicció del grau d’utilització de la llengua catalana aconseguida fins ara. Hi hem fet servir tres mètodes de classificació supervisada: Naive Bayes, arbres de decisió i màquines de vectors de suport. Per a complir aquesta comesa calia un corpus empíric que ens permetera tant la comprovació del nivell de predicció d’un model teòric com la seua validesa en diferents contextos sociolingüístics. Les recerques que coneixem que tenen uns percentatges més alts de predicció són les dutes a terme per Querol, que han estat avaluades en tots els territoris on es parla català. La investigació que hem fet amb aquestes dades permet concloure que la classificació supervisada pot servir per a construir models de predicció del grau d’ús del català amb un percentatge d’encert que supera els aconseguits en les investigacions precedents. Amb la qual cosa podem establir quines són les variables més informatives. A més, també ens ajuda a resoldre el problema metodològic de la divisió en grups lingüístics i palesa que l’ús és un sistema continu. Paraules clau: ús lingüístic; predicció; intel·ligència artificial; aprenentatge automàtic; classificació supervisada.

Published in Treballs de Sociolingüística Catalana

ISSN: 0211-0784 (Print); 2013-9136 (Online)
Publisher: Societat Catalana de Sociolingüística
Country of publisher: Spain
LCC subjects: Language and Literature: Philology. Linguistics; Social Sciences: Sociology (General)
Website: http://revistes.iec.cat/index.php/TSC

About the journal

Abstract

Keywords