КОРПУСИ ТЕКСТІВ: ЗДОБУТКИ УКРАЇНИ ТА ПЕРСПЕКТИВИ ВРАХУВАННЯ ЗАКОРДОННОГО ДОСВІДУ
Abstract
Розглянуто дев'ять текстових корпусів української мови, порівнюються їхні характеристики, можливості використання в дослідницькій роботі. З'ясовано, що найсуттєвішими параметрами електронних корпусів є розмітка як текстів у цілому (жанрово-тематична, ареальна, хронологічна, соціологічна), так і графічних слів у ньому (частиномовна, семантична); зараз бракує розмітки за дискурсивними характеристиками. Узагальнено принципи пошуку: можливість шукати слово, лексему, словосполучення, речення, а також маски виразів в узагальненому вигляді, однак виклик найближчого майбутнього – семантична розмітка та створення корпусів різних дискурсів.