KPI Science News (Dec 2021)

ГЕНЕРУВАННЯ КОРПУСІВ ТЕКСТОВИХ ДАНИХ НА ОСНОВІ ДЕТЕРМІНОВАНОГО МЕТОДУ

  • Yakiv O. Yusyn,
  • Tetiana M. Zabolotnia

DOI
https://doi.org/10.20535/kpisn.2021.3.240780
Journal volume & issue
no. 3

Abstract

Read online

Проблематика. Розв’язання великої кількості задач у галузі оброблення природної мови передбачає використання корпусів текстових даних, що зумовлює актуальність підготовки останніх. Їх формування на основі справжніх текстів потребує часових витрат, а також є не завжди доцільним. Тому популярності набуває автоматизоване генерування корпусів на основі різних методів й алгоритмів, що значно спрощує підготовку експериментальних даних. Мета дослідження. Збільшити кількість знаходжуваних дефектів під час тестування програмних реалізацій методів оброблення природномовних текстових даних, розробивши новий метод генерування корпусів текстових даних задля їх використання як вхідних даних для тестування. Методика реалізації. Запропоновано детермінований метод генерації корпусів текстових даних CorDeGen (від Corpora Deterministic Generation), що задовольняє такі вимоги: детермінованість; залежність на вході лише від бажаної кількості термів у корпусі, що генерується; забезпечення генерування корпусу нетривіальної структури. На основі запропонованого методу розроблено відповідний алгоритм, а також виконано програмну реалізацію на платформі .NET (мова програмування – C#). За допомогою цієї програмної реалізації оцінено швидкодію та ефективність розробленого методу. Результати дослідження. Оцінювання швидкодії розробленого методу CorDeGen показало степеневу залежність часу генерування корпусу від кількості термів (вхідного параметра) з показником степеня близьким до 1,5. У межах дослідження доцільність використання розробленого методу для тестування коректності програмних реалізацій показана на прикладі тестування методу кластеризації k-середніх. Висновки. Тестування створеного детермінованого методу генерації корпусів текстових даних довело його ефективність при тестуванні інших методів оброблення природномовних даних, як-от кластеризації, замість природних корпусів.

Keywords