Towards information system development for data extraction from web

Yulia Mukolaivna Gontar; Kateryna Victorivna Tkach; Bohdan Oleksandrovych Yena; Artem Victorovych Vasylenko

doi:10.20998/2079-0023.2018.22.08

Вісник Національного технічного університету "ХПÌ": Системний аналіз, управління та інформаційні технології (Sep 2018)

Towards information system development for data extraction from web

Yulia Mukolaivna Gontar,
Kateryna Victorivna Tkach,
Bohdan Oleksandrovych Yena,
Artem Victorovych Vasylenko

Affiliations

Yulia Mukolaivna Gontar
Kateryna Victorivna Tkach
Bohdan Oleksandrovych Yena
Artem Victorovych Vasylenko

DOI: https://doi.org/10.20998/2079-0023.2018.22.08
Journal volume & issue: Vol. 0, no. 22
pp. 53 – 59

Abstract

Read online

Сьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.

Published in Вісник Національного технічного університету "ХПÌ": Системний аналіз, управління та інформаційні технології

ISSN: 2079-0023 (Print); 2410-2857 (Online)
Publisher: National Technical University Kharkiv Polytechnic Institute
Country of publisher: Ukraine
LCC subjects: Technology
Website: http://samit.khpi.edu.ua/

About the journal

Abstract

Keywords