Eesti Rakenduslingvistika Ühingu Aastaraamat (Apr 2023)
Towards the morphosyntactic corpus profile of prototypical adjectives in Estonian
Abstract
The transition zones between traditional word classes cause problems in lexicography. This research addresses the issue of estimating the level of adjectivization in Estonian by proposing a set of close-context indicators (“test patterns”) based on the existing literature and detectable in annotated corpus text. The profile of prototypical adjectives (the “reference profile”) is established by analyzing the normalized frequencies of the test patterns in a random sample of validated adjectives (N = 100). A scale of similarity to the reference profile is established by using the method of calculating Euclidean distances, which is considered a heuristic of the cumulative similarity vs. the difference. As a result, the scalar nature of the similarity to the reference profile is revealed, among both validated adjectives and the control group of yet underspecified lexicographic headword candidates (N = 100). The results are discussed in respect to improving the toolbox of the test patterns as well as in respect to future studies on some intriguing features of the actual corpus behavior of adjectives as compared to what would be expected by their morphosyntactic potential described in the literature. *** Eesti keele prototüüpse adjektiivi morfosüntaktilise korpusprofiili jälil Sõnavara kategoriseerimisel sõnaliikidesse valmistavad leksikograafias probleeme ennekõike üleminuekualad. Üks peamisi murekohti on raskus määratleda seejuures verbi ja adjektiivi vahelist piiri (Paulsen jt 2019, Paulsen jt 2020). Siinses uurimuses vaatleme partitsiipide adjektiviseerumisprotsesse korpusstatistika andmetele tuginedes. Lähenemine põhineb teoreetilisel eeldusel, et mistahes nähtusi kategoriseerivad inimesed alateadlikult liikmete sarnasust n-ö prototüüpsele esindajale ehk kategooria keskmele hinnates. See toob kaasa, et kategooria liikmed võivad olla selle prototüübiga kas rohkem või vähem sarnased; kategooria perifeerses osas võivad liikmed kuuluda juba ka mingisse naaberkategooriasse. Adjektiividele omaste joonte väljaselgitamiseks korpuses kasutame testmustrite sarja, millest igaüks haarab potentsiaalse adjektiivi lähikonteksti. Kuus testmustrit põhinevad adjektiivide omadustel, mis on kirjanduses esile toodud ning ka eelmärgendatud korpusetekstides tuvastatavad. Kolm mustrit mõõdavad testsõna esinemist atribuudi rollis – eestäiendina üldiselt ning kahes kitsendatud positsioonis: ühilduvana põhisõnaga käändes ja arvus ning teiseks paiknevana lause alguses. Veel kätkesid mustrid esinemist keskvõrde vormis, laiendatavust vahetult eelneva adverbiga ning esinemist öeldistäitena st olema verbi jätkuna. Prototüüpse adjektiivi korpuskäitumise profiil selgitati välja sajast sõnast koosneva juhuvalimi põhjal „Eesti keele põhisõnavara sõnastiku” adjektiividest. Kontrollrühm (N = 100) moodustati Eesti Keele Instituudi sõnastikubaasis Ekilex (Hein jt 2020) leiduvast sõnaliigimärgendita partitsiibist samuti juhuvalimina, silmas pidades erinevate partitsiibivormide võrdset esindatust. Adjektiivi morfosüntaktilise käitumise prototüüpi valiti esindama katsetes kasutatud testmustrite suhteliste sageduste mediaanväärtused adjektiivide rühmas. Sarnasusmõõdikuna kasutasime eukleidilise kauguse meetodit, mis lubab analüüsida kõrvutatavate nähtuste mitmeid parameetreid korraga. Analüüsi tulemuseks on skaala, mis eristab määra, kuivõrd uuritav sõna sarnaneb oma korpuskäitumiselt tavalisele tüüpilisele adjektiivile. Analüüsi tulemusi lahkame testmustrite sarja tõhususe, aga ka testitud adjektiivide korpuskäitumise iseärasuste vaatenurgast.
Keywords