Sistemnì Doslìdženâ ta Informacìjnì Tehnologìï (Mar 2025)

Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування

  • Андрій Попов

DOI
https://doi.org/10.20535/srit.2308-8893.2025.1.03
Journal volume & issue
no. 1

Abstract

Read online

Наявність пропущених даних є поширеною проблемою в аналізі даних та машинному навчанні. У роботі проаналізовано залежності якості прогнозування моделей машинного навчання від використаних методів оброблення пропущених даних на етапі підготовки даних до навчання моделей. Досліджуваними методами є аналіз повних спостережень, заповнення середнім та дві реалізації методу множинного заповнення — мовами Python та R. Обраними класифікаторами є логістична регресія, метод випадкового лісу, метод опорних векторів та Light Gradient Boosting Machine (LGBM). Якість прогнозних моделей оцінюється за метриками accuracy, precision та recall. Розглянуто два набори даних із задачами класифікації, що мають різні цільові метрики. Найкращі результати досягнуто з використанням алгоритму множинного заповнення у реалізації мовою R у поєднанні з класифікаторами випадкового лісу та LGBM.

Keywords