Збірник наукових праць Харківського національного університету Повітряних Сил (May 2018)
Аналіз даних в SQL Server засобами Python
Abstract
Розглянуто можливості інструментальних засобів аналізу даних. Викладено способи зберігання даних, які адаптовані до ефективного виконання запитів аналізу даних, а також мовні засоби, що представлені в компоненті Microsoft SQL Server як Machine Learning Services (in-database). Проведено порівняння операційних баз даних (OLTP-систем) і сховищ даних, які орієнтовані на аналіз даних (OLAP-систем). Наведено приклади обох систем, а також розглянуто систему їхньої взаємодії (ETL-система). Описано інструментальні засоби аналізу даних, які в найпростіших випадках застосовуються до OLAP-кубів. Подано мовні засоби виконання аналізу даних в більш складних випадках. Проведено порівняння мов R і Python, з якого випливає, що мова Python дозволяє будувати завершені програми обробки даних, а бібліотеки в ній майже такі самі, як і в мові R. Показано, що, з огляду на велику популярність мовних засобів аналізу даних в останні випуски SQL Server включено компонент SQL Server R Services, в результаті чого нові можливості в SQL Server дозволили обійти обмеження, яке полягає в тому, що всі дані повинні зберігатися в пам'яті. Описано основні переваги компонента Machine Learning Services, а також особливості його установки. Продемонстровано на конкретних прикладах можливості виконання розрахунків і графічного подання результатів мовою Python у середовищі SQL Server для проведення аналізу даних.
Keywords