Цифрова платформа: інформаційні технології в соціокультурній сфері (Dec 2024)
Семантичний аналіз текстів природною мовою: онтологічний підхід
Abstract
Розвиток інформаційних (інтелектуальних) систем навчання, систем електронного документообігу, веб-орієнтованих систем, що працюють з текстовою інформацією природною мовою, призвів до збільшення обсягів навчального контенту та/або масивів оброблених повнотекстових документів. Все це вимагає нових засобів організації доступу до інформації, багато з яких слід віднести до інтелектуальних систем обробки знань. Одним із ефективних підходів до ідентифікації та обробки сенсу навчального контенту (і/або текстових документів) є використання онтологій. Метою статті є дослідження, аналіз різних підходів до визначення семантичного наповнення текстів природною мовою, розгляд існуючих концепцій аналізу текстів і перспектив використання запропонованого онтологічного підходу до семантичного аналізу текстів природною мовою. Методами дослідження є методи семантичного аналізу основних понять аналізованої предметної галузі (семантичного анаізу текстів природньої мовою). У статті розглядається підхід до лінгвістичного аналізу текстів, що базується на онтологічному моделюванні. Новизною дослідження є застосування запропонованого онтологічного підходу до семантичного аналізу текстів природною мовою для визначення сенсу (семантики) текстової інформації, яка використовується в інтелектуальних системах різних класів. Висновок дослідження, проведеного у статті, полягає в наступному: запропоновано онтологічний підхід до семантичного аналізу тексту природної мови, до його завдань та методів. Використання запропонованого підходу до аналізу текстів приводить до розуміння семантичного аналізу як єдиної тріади: . Для ефективного та коректного вилучення знань у роботі пропонується використовувати багаторівневу онтологію. Результатом взаємодії конкретного тексту природної мови з онтологією є онтологічний сенс – сукупність взаємопов’язаних підграфів онтографа. Онтологічний зміст витягується з онтографа за допомогою семантичного аналізатора. Діалоговий процесор досліджує синтаксичне дерево розбору речення (зв’язного елемента тексту природної мови) і на основі заданого запитання знаходить фрагмент у тексті, який є відповіддю на запитання. Комп’ютерне розуміння (в інформаційних чи інтелектуальних системах) тексту природної мови досягається, зокрема, за рахунок: занурення тексту в єдине середовище знань – онтологію; формальне представлення сенсу (семантики) в базі знань відповідної системи; можливість операцій над онтологічним змістом. Запропонований підхід може бути використаний для створення інтелектуальних сховищ інформації, які працюють в єдиному середовищі знань.Запропонований підхід до семантичного, аналізу текстів природною мовою зосереджений на автоматичному вилученні метаданих із текстів різної природи (наприклад, текстового документа, Інтернет-контенту, навчального контенту відповідних онлайн-курсів, опису комп’ютерних та настільних ігор). При подальшому розвитку запропонованого підходу він може використовуватися в системах автоматичного реферування наукових публікацій, змістовної інтерпретації мультимедійного контенту, навчання та тестування (в тому числі з елементами візуального відображення інформації та елементами гейміфікації).
Keywords