Современные инновации, системы и технологии (Apr 2025)
Сопоставление библиотек для создания моделей машинного обучения на основе методов градиентного бустинга
Abstract
В статье проводится сравнительный анализ современных библиотек для построения моделей машинного обучения на основе методов градиентного бустинга: CatBoost, XGBoost и LightGBM. Рассмотрены их ключевые особенности, преимущества и недостатки, включая обработку категориальных признаков, скорость обучения, потребление памяти, устойчивость к переобучению и требования к настройке гиперпараметров. Особое внимание уделено алгоритмам, лежащим в основе каждой библиотеки, а также их математическому аппарату, включая функции потерь и методы регуляризации. На основе проведенного анализа сделаны выводы о целесообразности выбора той или иной библиотеки в зависимости от специфики задачи, структуры данных и требований к производительности. В качестве рекомендуемого инструмента выделен CatBoost благодаря его эффективной работе с категориальными признаками, автоматизации предобработки данных, устойчивости к переобучению и упрощенной настройке гиперпараметров. Статья предназначена для исследователей и практиков в области машинного обучения, а также специалистов, занимающихся разработкой и оптимизацией прогнозных моделей.
Keywords