Adaptivni Sistemi Avtomatičnogo Upravlinnâ (Nov 2012)
Екстракція структурованих даних з Web-ресурсів
Abstract
В статті запропоновано опис і обґрунтування програмного інструментарію на основі асинхронних можливостей платформи .NET та динамічної структури бази даних MongoDb для екстракції даних з Web-ресурсів в форматі HTML. Проведено аналіз методів і засобів вирішення задачі екстракції Web-контенту. Обґрунтовано використання ASP.NET MVC для вирішення завдання конфігурування програмного інструментарію, методу аналізу DOM дерева для завдання парсингу, MongoDB для вирішення завдання збереження даних. Інструментарій може використовуватися в корпоративних системах агрегування даних.
Keywords