Korpuste tükeldamine: rakendusi silpide ning allkeeltega

Leo Võhandu; Kairit Sirts

doi:10.5128/erya5.17

Eesti Rakenduslingvistika Ühingu Aastaraamat (May 2009)

Korpuste tükeldamine: rakendusi silpide ning allkeeltega

Leo Võhandu,
Kairit Sirts

Affiliations

Leo Võhandu
Kairit Sirts

DOI: https://doi.org/10.5128/erya5.17
Journal volume & issue: Vol. 0, no. 5
pp. 251 – 266

Abstract

Read online

Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada, andes sellega võimaluse uurida keele erinevaid tahkusid. Artiklis uurime kahte oma omadustelt väga erinevat tükeldust: teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil ning keele tükeldamist erinevateks allkeelteks eesmärgiga leida eesti keele põhisõnavara. Silpidel baseeruv statistiline keelemudel hõlmab endas 500 kõige sagedamini esinenud silpi ning on kolmetasandiline, koosnedes silpide, silbipaaride ja silbikolmikute järgnevuse sagedustabelitest. Sagedustabel on oma olemuselt maatriks, mille ridadeks on kas silbid, silbipaarid või silbikolmikud ning veergudeks silbid. Ridade ja veergude ristumispunktides on arv, mis näitab, mitu korda vastav veeru silp esines tekstikorpuses vastava reaelemendi järel. Eesti pseudokeele generaator on silpidel baseeruva statistilise keelemudeli rakendus. Eesti pseudokeele generaatorit kasutades on võimalik genereerida teksti, mis ei ole küll päris eesti keel, aga kahtlemata kõlab eesti keelena. Silpide kategoriseerimise eesmärgiks on rühmitada silbid vastavalt nende võimalikele asukohtadele sõnas. Pakume välja algoritmi silpide automaatseks rühmitamiseks kasutades silpide sagedustabelit. Näitame eksperimentaalselt kümne silbi abil, kuidas silbid jagunevad algus-, lõpu- ja kesksilpideks. Keelt võib tükeldada n-ö põhisõnavara sisaldavaks üldkeeleks ning erinevateks allkeelteks, mis sisaldavad vastavat oskussõnavara. Käesolevas artiklis arutleme, kas ja kuidas on käesoleval ajal defineeritud üldkeel. Ühtlasi pakume välja algoritmi sellise põhisõnavara üheseks määratlemiseks arvuti abil.DOI: http://dx.doi.org/10.5128/ERYa5.17

Published in Eesti Rakenduslingvistika Ühingu Aastaraamat

ISSN: 1736-2563 (Print); 2228-0677 (Online)
Publisher: Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
Country of publisher: Estonia
LCC subjects: Language and Literature: Philology. Linguistics; Language and Literature: Ural-Altaic languages: Finnic. Baltic-Finnic
Website: http://www.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat

About the journal

Abstract

Keywords