Науковий вісник НЛТУ України (Apr 2023)

Порівняння регресійних моделей за наявності викидів у наборі різнотипових даних

  • Н. І. Бойко,
  • К. П. Газдюк

DOI
https://doi.org/10.36930/40330212
Journal volume & issue
Vol. 33, no. 2

Abstract

Read online

У дослідженні зосереджено увагу на надійній статистиці, обґрунтовано вплив надійної регресії на подолання обмежень традиційного регресійного аналізу. Закцентовано на регресійному аналізі, який моделює зв'язок між однією чи кількома незалежними змінними та залежною змінною. Описано стандартні типи регресії, такі як звичайний метод найменших квадратів, що мають сприятливі властивості. Наведено приклади оцінювання за методом найменших квадратів для регресійних моделей. Проаналізовано критерії моделей, які чутливі до викидів. Розглянуто викиди із подвійною величиною помилки, аніж типове спостереження, та з більшою величиною, що впливає на квадратичну втрату помилки, і тому має більше важелів впливу на оцінки регресії. Розглянуто аналіз лінійних моделей за оцінками параметрів за методом найменших квадратів завжди виявлялися найкращими лінійними незміщеними оцінками. Наведено порівняння властивостей цих методів, що здійснюється за допомогою моделювання. Обґрунтовано критерії порівняння їх ефективності. Досліджено критерії для M-estimators, які можуть бути вразливими до спостережень із високим важелем. Робота зосереджена на даних, які містять викиди. Досліджено їх вплив на оцінки методом найменших квадратів. Обґрунтовано застосування функції втрат Хубера, яка є надійною альтернативою стандартним квадратичним втратам помилок, та зменшує кількість викидів у квадратичні втрати помилок. Розглядається випадки втрати помилок, які обмежують їхній вплив на оцінки регресії. Досліджено алгоритм Random Sample Consensus (RANSAC) для надійної підгонки моделей. Показано його надійність у процесі аналізу викидів у експериментальних даних. Проаналізовано критерії, за яких алгоритм здатний інтерпретувати та згладжувати дані, які містять значний відсоток грубих помилок. Обґрунтовано процес генерування статистики, який покладається на звичайний метод найменших квадратів (МНК) у моделі лінійної регресії завдяки його оптимальним властивостям і простоті обчислень. Обґрунтовано МНК, який дає незміщену та мінімальну дисперсію серед усіх незміщених лінійних оцінок, коли помилки є незалежними, однаково та нормально розподіленими із середнім значенням 0 та постійною дисперсією 2σ. Показано однорідності дисперсій помилок (гомоскедастичність), що є важливим припущенням у лінійній регресії, для якої оцінки методом найменших квадратів мають властивість мінімальної дисперсії. Проведено порівняльний аналіз таких регресійних моделей: лінійна регресія (англ. Linear Regression, not Robust); регресія Губера (англ. Huber Regression); RANSA (англ. RANdom SAmple Consensus); оцінююча функція Тейла-Сена (англ. Theil-Sen Regression). У роботі проведено дослідження на вибірках із різними показниками викидів для чотирьох моделей регресій, зокрема першої не надійної (LR). Оцінено точність отриманих моделей для даних із викидами та без. Наведено дослідження, які демонструють важливість аналізу викидів у наборі даних та вибору правильного методу регресії. Розглянуто різні алгоритми, що по-різному пріоритезують важливість елементів вибірки та дають результати різної точності залежно від кількості викидів та однорідності даних.

Keywords