СТИЛЬОВА ДИФЕРЕНЦІАЦІЯ УКРАЇНСЬКОМОВНИХ ТЕКСТІВ ЗА ЧАСТИНАМИ МОВИ (ЕКСПЕРИМЕНТАЛЬНЕ ЛІНГВОСТАТИСТИЧНЕ ДОСЛІДЖЕННЯ)
Abstract
Вступ. Описується експериментальне лінгвостатистичне дослідження функційних та авторських стилів української мови, формування статистичного апарату й застосування статистичних методів у встановленні стилерозрізнювальних ознак українськомовних медійних текстів за даними частотних словників частин мови Корпусу української мови та результатами роботи системи TextAttributor 1.0 (http://ta.mova.info). Автори статті – члени колективу розробників обох інформаційних систем. Методи. У дослідженні використовувався метод моделювання стилеметричної структури тексту, метод Стьюдента, методику порівняльного аналізу емпіричних даних із довірчим інтервалом середнього квадратичного відхилення, методику графічного представлення стилеметричної моделі. Результати. За допомогою автоматичних інструментів Корпусу української мови було обчислено абсолютні та відносні частоти частин мови в українськомовних текстах і проаналізовано статистичну поведінку частин мови за характеристикою відносної частоти у функційних стилях (художньої прози (~ 55 млн слововживань); медійного стилю (~ 40 млн слововживань)), а також у восьми текстових вибірках медійних текстів авторських Telegram-каналів. За методом Стьюдента доведено, що статистичні характеристики частин мови можуть виступати диференційними ймовірностями авторського стилю. До того ж, у статті охарактеризовано динамічну стилеметричну модель, реалізовану в системі TextAttributor 1.0. Ця модель здійснює атрибуцію медійних текстів за 18-ма статистичними параметрами, вісім із яких характеризують частиномовну статистичну структуру тексту. Отримані результати засвідчують, що емпіричні статистичні дані частин мови, зіставлені з довірчими інтервалами медійного стилю української мови, визначають індивідуальну стилістичну манеру автора. Висновки. Лінгвостатистичний експеримент переконливо доводить, що частини мови формують статистичну структуру тексту, яка варіює залежно від функційного або авторського стилю. Обґрунтована в дослідженні поліпараметрична частиномовна модель дозволяє для кожного досліджуваного тексту чітко визначити, які зі статистичних параметрів є нейтральними, а які диференційними стилеметричними ймовірностями. Ця модель може використовуватися як еталонна для лінгвостатистичного аналізу текстів інших мов.