Eesti Rakenduslingvistika Ühingu Aastaraamat (Apr 2021)

Extended clusters of vertical polysemy: An explorative study of eleven wordnets

  • Ahti Lohk,
  • Ene Vainik,
  • Geda Paulsen,
  • Martin Rebane,
  • Francis Bond

DOI
https://doi.org/10.5128/ERYa17.11
Journal volume & issue
Vol. 17
pp. 193 – 210

Abstract

Read online

The purpose of this study is to identify and to examine maximum-size polysemy clusters in semantic hierarchies of eleven wordnets that are included in Open Multilingual Wordnet. The clusters are extracted from both the super-subordinate hierarchies of the noun (IS-A) and the hierarchies of the verb (MANNER-OF). We focus on the substructures of semantic hierarchies that display vertical polysemy relationships (i.e. clusters containing words with the same spelling in their vertices). Besides the maximum-size polysemy clusters, the number of vertical polysemy relationships, and the PoS distribution in these relations are examined. The findings of this study suggest that the large polysemy clusters may indicate potential problems like inaccurate identification of a word’s meaning in an NLP task. The algorithm detecting maximal clusters of polysemy has the potential to be applied to other wordnets than those analyzed in this study. The analysis in this article is the first step in large-size polysemy clusters studies. We expect that the polysemy clusters help to evaluate the state of the wordnets’ semantic hierarchies and to assess the suitability of these structures as background knowledge for solving NLP tasks. *** Vertikaalse polüseemia laiendatud klastrid: üheteistkümne wordnet'i vaatlus Käesoleva uurimistöö eesmärk on tuvastada ja analüüsida maksimaalse suurusega polüseemiaklastreid veebilehelt Open Multilingual Wordnet välja valitud üheteistkümne suurema wordnet’i semantilistest hierarhiatest. Polüseemiaklastrid on ekstraheeritud nii nimisõna kui ka verbi semantilistest hierarhiatest. Uurimuses keskendutakse sellistele semantilise hierarhia alamstruktuuridele, mis sisaldavad vaid vertikaalse polüseemia seoseid (s.o sellistele klastritele, mille tipud sisaldavad sama kirjapildiga sõnu). Peale maksimaalse suurusega klastrite käsitleme vertikaalse polüseemia seoste osakaalu hierarhiliste seoste hulgas ning sõnaliikide jaotust. Uuringu tulemused näitavad, et suured polüseemiaklastrid võivad viidata võimalikele probleemidele loomuliku keele masintöötlemise ülesannetes, nagu näiteks sõna tähenduse ebatäpne tuvastamine. Maksimaalse suurusega klastrite tuvastamiseks loodud algoritm on rakendatav ka neile wordnet’idele, mida selles töös ei käsitletud. Artiklis esitatud meetod on esimene samm suuremõõtmeliste polüseemiaklastrite analüüsis. Artikli autorid on seisukohal, et polüseemiaklastrid aitavad hinnata wordnet’ide semantiliste hierarhiate seisundit ja nende sobivust loomuliku masintöötlemise ülesannete lahendamise teadmusbaasina.

Keywords