Sistemnì Doslìdženâ ta Informacìjnì Tehnologìï (Dec 2020)
Розроблення інструментарію для аналізу текстів публічних та спеціалізованих джерел у завданнях передбачення та системного аналізу
Abstract
Розроблено комбінований підхід до вилучення понять і побудови класифікаторів та онтологій за допомогою відкритих і пропрієтарних пакетів програмного забезпечення. Досліджено сучасні підходи, методи та моделі збереження великих обсягів слабко структурованої інформації з наборів програмного забезпечення OpenSource. Побудовано онтологію, у листях якої реалізовано класифікатор на булевих правилах із застосуванням програмного забезпечення SAS(R) Content Categorization Software. Для побудови онтології використано підхід до побудови векторів близьких понять за допомогою бібліотеки OpenSource програмного забезпечення Gensim — модель Word2Vec. Розроблено типовий алгоритм щодо побудови класифікуючої онтології. Результати дослідження можуть бути використані для побудови онтології предметних галузей, створення класифікуючих онтологій та розмічення корпусів текстів.
Keywords