Збірник наукових праць Харківського національного університету Повітряних Сил (Apr 2020)
Дослідження продуктивності кластера Apache Spark на платформі Azure для методів машинного навчання
Abstract
Розглянуто та досліджено питання підвищення продуктивності застосування моделей та методів задач машинного навчання з використанням Apache Spark Azure HDInsight. Для підвищення обгрунтованості отриманих результатів використано один з найбільш відомих бенмарків для тестування бібліотек машинного навчання Spark-Perf. Наведені кроки щодо встановлення, розгортання та налаштування Apache Spark на платформі Azure. Для оцінки ефективності розподілених обчислень використано метрики продуктивності щодо середнього часу навчання та тестування та їх відношення. Проведений порівняльний аналіз результатів розв’язку задач з бібліотеки MLlib для кластерів з гомогенною та гетерогенною архітектурою, які свідчать про високу ефективність їх використання.
Keywords