Сучасний стан наукових досліджень та технологій в промисловості (Mar 2025)

Метод K-середніх для аналізу даних з організації пасажирських перевезень у розумному місті

  • Юрій Мацелюх,
  • Василь Литвин

DOI
https://doi.org/10.30837/2522-9818.2025.1.083
Journal volume & issue
no. 1(31)

Abstract

Read online

Щороку методи кластеризації великих даних набувають популярності в прийнятті рішень з організації пасажирських перевезень у розумному місті, забезпечуючи ефективність, адаптивність і екологічність транспортної системи. Актуальність зазначених методів зумовлена зростанням обсягів даних, зміною попиту та негативним впливом транспорту на довкілля. Об’єктом дослідження є процес кластеризації масивів даних з організації пасажирських перевезень. Предмет дослідження – засади вивчення метрик кластеризації в процесі обчислення кількості кластерів виконання графіків перевезень. Мета роботи полягає в застосуванні з огляду на метрики якості методу K-середніх для кластеризації даних з організації пасажирських перевезень у розумному місті. Для досягнення мети необхідно виконати такі завдання: дослідити особливості методів кластеризації та їх метрик; проаналізувати масштабний неоднорідний набір даних щодо тривалості перегонів електротранспортом у середньому за розмірами міста; розробити ефективний алгоритм вибору методу обчислення кількості кластерів на основі метрик оцінювання якості кластеризації даних. Упроваджено методи аналізу, синтезу, узагальнення, порівняння, групування, кластерного аналізу, системного аналізу, метод K-середніх. Досягнуті результати. Установлено, що вибір методу кластеризації залежить від особливостей завдання, характеристик даних і цілей аналізу транспортних потоків. Виявлено складну, неоднорідну й необроблену структуру даних щодо тривалості перегонів електротранспортом. Кластерний аналіз методом K-середніх зумовлено потребою в точному розподілі даних між кластерами. Запропоновано алгоритм вибору методу обчислення кількості кластерів на основі метрик оцінювання якості кластеризації даних, серед яких метод ліктя, метод силуету та індекс Калінського – Харабаша. Рекомендовано застосовувати кластеризацію для створення маршрутів із скороченим часом очікування, меншою кількістю пересадок та відповідністю до потреб пасажирів. Висновки. Метод K-середніх використано для аналізу тривалості виконання перегонів електротранспортом. Аналіз даних виявив ділянки маршрутів із різною інтенсивністю транспортних потоків, що залежить від сезонності, їх розташування в міських зонах тощо. Запропоновано алгоритм вибору методу обчислення кількості кластерів на основі внутрішніх метрик.

Keywords