Науковий вісник НЛТУ України (Mar 2024)

Проблеми розроблення текстових корпусів засобами інформаційних систем і шляхи їх вирішення

  • І. В. Козак,
  • Н. Е. Кунанець

DOI
https://doi.org/10.36930/40340213
Journal volume & issue
Vol. 34, no. 2

Abstract

Read online

Відзначено, що актуальність побудови інформаційних систем для формування та підтримки текстових корпусів зумовлена зростанням кількості методів і засобів аналізу текстової інформації для конкретних рівнів лінгвістичного дослідження, а також обсягів текстових матеріалів для їх опрацювання. З'ясовано, що невпинно зростають вимоги до якості метатекстової інформації, її глибини та рівнів лінгвістичного опису, котрі зумовлені використанням таких корпусів з внесеною мета-інформацією для використання в подальших лінгвістичних дослідженнях та організації моделей машинного навчання. Спостережено тенденцію до використання алгоритмів машинного навчання для введення розмітки, а також під час аналізу "чистих" корпусів. Опрацьовано низку наукових праць стосовно створення текстових корпусів та практичних рекомендацій під час розроблення текстового корпусу. Виділено етапи побудови лінгвістичних текстових корпусів, з погляду розроблення інформаційної системи та проаналізовано процеси формації корпусу на кожному з етапів. На кожному з етапів проаналізовано виклики та проблеми, котрі постають перед корпусними лінгвістами під час створення текстового корпусу, можливості й обмеження індивідуальних розрізнених підходів до їх вирішення. Опрацьовано публікації, котрі описують розроблення архітектури, використання засобів та підходи до розроблення конкретних корпусів текстів. Виокремлено рішення, котрі володіють більшою кількістю переваг та успішно застосовують під час роботи з текстовими корпусами. На підставі детального аналізу процесів створення корпусу сформульовано вимоги на кожному з етапів розроблення корпусу, а також до інформаційної системи на високорівневому рівні. Запропоновано діаграму діяльності інформаційної системи для розроблення текстових корпусів. Результати дослідження доцільно використовувати для побудови інформаційних систем, які б давали змогу розробляти та підтримувати корпусі тексти. Подальші дослідження авторів будуть спрямовані на створення інформаційних моделей, аналіз новітніх індивідуальних рішень під час розроблення корпусів текстів і можливості їхньої інтеграції у інформаційну систему та проектування системи підтримки роботи з текстовими корпусами.

Keywords