Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave (Dec 2018)

Oblikoslovni vzorci v leksikonu Sloleks: izhodiščni nabor za samostalnike

  • Špela Arhar Holdt,
  • Jaka Čibej

DOI
https://doi.org/10.4312/slo2.0.2018.2.33-66
Journal volume & issue
Vol. 6, no. 2

Abstract

Read online

Prispevek predstavlja prvi korak k dopolnjevanju leksikona Sloleks z oblikoslovnimi vzorci, in sicer na primeru samostalnikov. Vzorci so v prvem koraku strojno pridobljeni iz leksikona samega na osnovi izbranih razločevalnih lastnosti (oblikoskladenjskih oznak in spremenljivih delov besednih oblik). Sledi ročno razvrščanje, v katerem (a) ločimo sistemsko in v rabi utemeljene vzorce od primerov, ki se pojavljajo spričo šuma pri strojnem luščenju in nedoslednosti v leksikonu Sloleks; (b) uredimo skupine glede na vsebovanost in sorodnost; (c) poiščemo in natančneje opredelimo variantnost, tako pri standardnih kot nestandardnih oblikah; (d) začrtamo korake za nadaljnji razvoj programa in leksikonske nadgradnje. Rezultat je izhodiščni nabor formaliziranih oblikoslovnih vzorcev za (občno- in lastnoimenske) samostalnike, ki prinaša 10 skupin (64 vzorcev) za moški spol, 9 skupin (29 vzorcev) za ženski spol in 8 skupin (20 vzorcev) za srednji spol. Priprava nabora vzorcev je razkrila številne možnosti za izboljšavo leksikona, strojno namenski pogled na pregibanje pa priložnosti za dopolnitev slovničnega opisa slovenščine. V nadaljevanju dela bodo vzorci pripravljeni tudi za preostale besedne vrste in dopolnjeni s korpusnim gradivom. Končna nomenklatura bo vpisana v bazo leksikona Sloleks, v obliki strojno berljivih vzorcev pa bo objavljena tudi na repozitoriju Clarin.si.

Keywords