Statistilised meetodid ühendverbide tuvastamisel tekstikorpusest

Eleri Aedmaa

doi:10.5128/ERYa11.03

Eesti Rakenduslingvistika Ühingu Aastaraamat (Apr 2015)

Statistilised meetodid ühendverbide tuvastamisel tekstikorpusest

Eleri Aedmaa

Affiliations

Eleri Aedmaa

DOI: https://doi.org/10.5128/ERYa11.03
Journal volume & issue: Vol. 11
pp. 37 – 54

Abstract

Read online

Artiklis võrdlen sõnadevahelise seose tugevuse mõõtmise statistilisi meetodeid, mida kasutatakse arvutilingvistikas püsiühendite tuvastamiseks. Töö põhieesmärk on rakendada viit sümmeetrilist statistikut – t-skoori, vastastikuse informatsiooni väärtust, hii-ruut-statistikut, log-tõepära funktsiooni ja minimaalset tundlikkust – erineva suurusega korpuste peal ja välja selgitada, milline meetod töötab eesti keele ühendverbide automaatsel tuvastamisel kõige paremini. Teine suurem eesmärk on katsetulemuste põhjal uurida, milline on korpuse suuruse mõju statistikute tööle. Lisaks palju testitud nimetatud sümmeetrilistele statistikutele rakendan psühholoogiliselt paremini põhjendatud asümmeetrilisi statistikuid ning toon välja nende eelised sümmeetriliste statistikute ees.

Published in Eesti Rakenduslingvistika Ühingu Aastaraamat

ISSN: 1736-2563 (Print); 2228-0677 (Online)
Publisher: Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
Country of publisher: Estonia
LCC subjects: Language and Literature: Philology. Linguistics; Language and Literature: Ural-Altaic languages: Finnic. Baltic-Finnic
Website: http://www.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat

About the journal

Abstract

Keywords