Lähivõrdlusi (Oct 2018)

Teksti keelekasutusmustrid ja lingvistiline klasteranalüüs

  • Pille Eslon,
  • Kais Allkivi-Metsoja

DOI
https://doi.org/10.5128/LV28.01
Journal volume & issue
Vol. 28
pp. 21 – 46

Abstract

Read online

Suurte korpuste automaatsel töötlemisel kasutatakse erinevat keeletarkvara ja statistilist analüüsi, mille valik ning kombineerimisvõimalused sõltuvad keelest, uurimisobjektist ja eesmärkidest. Artiklis tutvustame teksti keelekasutusmustrite otsimiseks mõeldud integreeritud tarkvararakendust Klastrileidja ja selle toimesüsteemi, anname ülevaate lingvistilise klasteranalüüsi abil saadud uurimistulemustest. Eesmärk on seletada, mida selle meetodi rakendamine loomuliku keele töötluse käigus võimaldab avastada eesti keele ja õppija keelekasutuse kohta ning kuidas neid teadmisi pedagoogilistel vajadustel rakendada. *** "Patterns of language use and linguistic cluster analysis" For automatic processing of large electronic corpora, different language analysis tools and statistical methods are applied, the choice and combination of which depend on the language, the object and goals of study. In this article, we introduce an integrated software tool Klastrileidja (Cluster Catcher), which has been developed for finding language use patterns, and we give an overview of the study results obtained, using linguistic cluster analysis. The purpose is to explain the possibilities that this method offers for natural language processing, exploring Estonian and learner language use as well as for pedagogical needs.

Keywords