Eesti Rakenduslingvistika Ühingu Aastaraamat (Apr 2015)

Statistilised meetodid ühendverbide tuvastamisel tekstikorpusest

  • Eleri Aedmaa

DOI
https://doi.org/10.5128/ERYa11.03
Journal volume & issue
Vol. 11
pp. 37 – 54

Abstract

Read online

Artiklis võrdlen sõnadevahelise seose tugevuse mõõtmise statistilisi meetodeid, mida kasutatakse arvutilingvistikas püsiühendite tuvastamiseks. Töö põhieesmärk on rakendada viit sümmeetrilist statistikut – t-skoori, vastastikuse informatsiooni väärtust, hii-ruut-statistikut, log-tõepära funktsiooni ja minimaalset tundlikkust – erineva suurusega korpuste peal ja välja selgitada, milline meetod töötab eesti keele ühendverbide automaatsel tuvastamisel kõige paremini. Teine suurem eesmärk on katsetulemuste põhjal uurida, milline on korpuse suuruse mõju statistikute tööle. Lisaks palju testitud nimetatud sümmeetrilistele statistikutele rakendan psühholoogiliselt paremini põhjendatud asümmeetrilisi statistikuid ning toon välja nende eelised sümmeetriliste statistikute ees.

Keywords