Eesti Rakenduslingvistika Ühingu Aastaraamat (May 2010)

Statistilised meetodid murdekorpuse ühendverbide tuvastamisel

  • Kristel Uiboaed

DOI
https://doi.org/10.5128/ERYa6.19
Journal volume & issue
Vol. 0, no. 6
pp. 307 – 326

Abstract

Read online

Sõnadevahelise seose tugevuse mõõtmise statistikuid kasutatakse arvutilingvistikas püsiühendite tuvastamisel. Statistikud võimaldavad korpuses kahele sõnale arvutada nendevahelise seose tugevuse väärtuse, mille põhjal võib otsustada, kas tegemist on püsiühendiga või mitte. Statistikute kasutamise eelis on, et arvesse ei võeta ainult sõnade koosesinemise, vaid ka ühendit moodustavate sõnade eraldiesinemise sagedusi. Artiklis teen katse rakendada statistikuid Eesti murrete korpuse kaheliikmeliste ühendverbide automaatsel tuvastamisel. Katsetatud on kolme murderühma peal eraldi nelja statistikut: t-skoori, vastastikuse informatsiooni väärtust MI, hii-ruut statistikut ning log-tõepära funktsiooni.DOI: http://dx.doi.org/10.5128/ERYa6.19

Keywords