Jaunųjų Mokslininkų Darbai (Dec 2019)
Didelį kategorijų kiekį turinčių draudimo bendrovės klientų užklausų, gautų elektroniniais laiškais, lietuviško teksto klasifikavimas
Abstract
Natūralios kalbos apdorojimas ir klasifikavimas jau plačiai naudojamas anglakalbėse šalyse. Tačiau lietuviško teksto analizė ir klasifikacija yra sudėtinga ir dar nevisiškai įgyvendinta. Taip yra dėl lietuvių kalbos sudėtingumo ir savitumo, todėl kitoms kalboms tinkami metodai ne visada tinka lietuvių kalbai. Šiame straipsnyje naudojamos trys pasirinktos tekstų apdorojimo parinktys bei įvairios jų kombinacijos ir įvertinama, kaip skirtingi nuoseklūs teksto klasifikavimo būdai gali klasifikuoti draudimo bendrovės klientų užklausas, gautas el. paštu. Šis tyrimas yra išskirtinis naudojamų metodų gausa ir papildomai įvertina lietuviško teksto klasifikavimo tikslumą daugelyje (33) kategorijų. Straipsnyje aptariamos natūralios kalbos apdorojimo problemos, analogiški tyrimai su lietuvių kalba parašytų tekstų klasifikacija, pristatoma siūloma tyrimo metodika ir aptariami tyrimo rezultatai.
Keywords