Eesti Rakenduslingvistika Ühingu Aastaraamat (Apr 2022)

POS-tagging Tartu Corpus of Estonian Learner English with CLAWS7

  • Liina Tammekänd,
  • Reeli Torn-Leesik

DOI
https://doi.org/10.5128/ERYa18.15
Journal volume & issue
Vol. 18
pp. 263 – 278

Abstract

Read online

The aim of the study is to examine whether the CLAWS7 tagger is a suitable tool for tagging the Tartu Corpus of Estonian Learner English (TCELE). Extracts were tagged manually and automatically, and the results were compared to calculate the error rate and reveal the possible causes for tagger errors. The error rate was 4.01%. The tagger expectedly experienced some of the disambiguation problems outlined in the CLAWS7 post-editing guide, yet certain tagger errors were also triggered by learner errors. *** Sõnaliikide märgendamine Tartu inglise õppijakeele korpuses CLAWS7 märgendajaga Uurimuse eesmärk oli tuvastada, kas CLAWS7 automaatset sõnaliigi märgendajat saab kasutada Tartu inglise õppijakeele korpuse (TCELE) märgendamiseks. TCELE-st juhuslikkuse alusel valitud käsitsi ja automaatselt märgendatud teksti lõike võrreldi omavahel, arvutati automaatse märgendaja veamäär ning analüüsiti märgendamisel tekkinud vigade võimalikke põhjuseid. Automaatse märgendaja veamääraks oli 4,01%. Märgendajal tekkisid ühestusraskused määratlejate ja adverbide, adverbide ja ainsuses olevate noomenite ning adjektiivide ja adverbide märgendamisel. Samuti oli märgendajal raskusi sobiva täpsema märgendi määramisel noomeni ja verbi kategooriates. Nimetatud raskusi mainiti ka CLAWS7 järeltoimetamise juhendis. Lisaks tekkisid märgendajal õppijavigadega seotud raskused. CLAWS7 oluline nõrkus on veel märgendite puudumine relatiivpronoomeni ning samuti sõnade this ja that pronoomenkasutuse jaoks. Vaatamata nimetatud puudustele saab CLAWS7 märgendajat kasutada eestlaste inglise õppijakeele märgendamiseks.

Keywords