Сучасний стан наукових досліджень та технологій в промисловості (Mar 2024)

Метод семантичної кластеризації з використанням інтеграції вдосконаленого алгоритму LDA й алгоритму BERT

  • Volodymyr Narozhnyi,
  • Vyacheslav Kharchenko

Journal volume & issue
no. 1(27)

Abstract

Read online

Предметом дослідження є поглиблений семантичний аналіз даних, оснований на модифікації методологій латентного розподілу Діріхле (LDA) та інтеграції її двоспрямованого кодувального подання з трансформаторів (BERT). Актуальність роботи. Прихований розподіл Діріхле є фундаментальною технікою моделювання тем, яку широко застосовують у різноманітних програмах для аналізу текстів. Хоча його корисність загальновизнана, традиційні моделі LDA часто стикаються з обмеженнями, зокрема жорстким розподілом тем і неадекватним відтворенням нюансів семантики, властивих природній мові. Мета дослідження – покращення адекватності та точності семантичного аналізу завдяки вдосконаленню базового механізму LDA, що інтегрує адаптивні пріоритети Діріхле та використовує глибокі семантичні можливості вбудовувань BERT. Упроваджені методи: відбір текстових наборів даних; попереднє оброблення даних; удосконалення алгоритму LDA; інтеграція з BERT Embeddings; порівняльний аналіз. Завдання дослідження: 1) теоретичне обґрунтування модифікації LDA; 2) реалізація інтеграції з BERT; 3) оцінювання ефективності методу; 4) порівняльний аналіз; 5) розроблення архітектурного рішення. Результати полягають у тому, що насамперед окреслено теоретичні основи як стандартної, так і модифікованої моделей LDA, а також детально викладено їх розширену формулу. За допомогою серії експериментів на текстових наборах даних, що визначаються різними емоційними станами, визначено ключові переваги запропонованого підходу. На підставі порівняльного аналізу за такими показниками, як внутрішньо та міжкластерна відстані та силуетний коефіцієнт, доведено підвищену когерентність, інтерпретованість і адаптивність модифікованої моделі LDA. Запропоновано архітектурне рішення для реалізації методу. Висновки. Емпіричні результати свідчать про значне покращення виявлення тонких складностей і тематичних структур у текстовій інформації, що є кроком в еволюційному розвитку методологій тематичного моделювання. Крім того, результати досліджень не лише створюють можливості застосування LDA для більш складних лінгвістичних сценаріїв, але й окреслюють шляхи їх подальшого вдосконалення для неконтрольованого аналізу текстів.

Keywords