Adaptivni Sistemi Avtomatičnogo Upravlinnâ (Nov 2012)

Екстракція структурованих даних з Web-ресурсів

  • Світлана Ігорівна Шаповалова

DOI
https://doi.org/10.20535/1560-8956.21.2012.30683
Journal volume & issue
Vol. 2, no. 21

Abstract

Read online

В статті запропоновано опис і обґрунтування програмного інструментарію на основі асинхронних можливостей платформи .NET та динамічної структури бази даних MongoDb для екстракції даних з Web-ресурсів в форматі HTML. Проведено аналіз методів і засобів вирішення задачі екстракції Web-контенту. Обґрунтовано використання ASP.NET MVC для вирішення завдання конфігурування програмного інструментарію, методу аналізу DOM дерева для завдання парсингу, MongoDB для вирішення завдання збереження даних. Інструментарій може використовуватися в корпоративних системах агрегування даних.

Keywords