Vilnius University Open Series (May 2023)

Neapykantos kalbos atpažinimas lietuviškuose komentaruose panaudojant dirbtinį intelektą

  • Eglė Kankevičiūtė,
  • Milita Songailaitė,
  • Justina Mandravickaitė

DOI
https://doi.org/10.15388/LMITT.2023.3

Abstract

Read online

Šiame darbe pateikiame neapykantos kalbos aptikimo modelių palyginimą lietuvių kalbai. Neapykantos kalbai aptikti naudojome tris giliojo mokymosi modelius: daugiakalbį BERT, LitLat BERT ir Electra. Visi trys modeliai buvo adaptuoti lietuviškų komentarų klasifikavimui į tris klases: neapykantos, įžeidžią ir neutralią kalbą. Norint adaptuoti modelius atpažinti neapykantos kalbą, buvo parengtas anotuotas duomenų rinkinys, kuriame yra 25 219 lietuviški komentarai. Apmokyti modeliai buvo įvertinti naudojant tikslumo, atkūrimo, preciziškumo ir F1 statistikos metrikas. Geriausiai pasirodė LitLat BERT, kurio F1 statistikos reikšmė buvo 0,72. Antroje vietoje liko daugiakalbis BERT, kurio F1 statistika buvo 0,63, o trečioje vietoje liko Electra, kurio F1 statistika pasiekė 0,55.

Keywords