Nauka ta progres transportu (Dec 2020)

ЗАСТОСУВАННЯ АЛГОРИТМІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ КОМЕНТАРІВ ПІД НАВЧАЛЬНИМ МАТЕРІАЛОМ НА ВІДЕОХОСТИНГУ «YOUTUBE»

  • L. S. Koriashkina,
  • H. V. Symonets

DOI
https://doi.org/10.15802/stp2020/225264
Journal volume & issue
no. 6(90)
pp. 33 – 42

Abstract

Read online

Мета. Автори мають на меті виявлення токсичних коментарів на відеохостингу «YouTube» під навчальним матеріалом шляхом класифікації неструктурованого тексту за допомогою комбінації методів машинного навчання. Методика. У роботі із зазначеним типом даних використано методи попередньої обробки для очищення, нормалізації, представлення текстових даних у вигляді, прийнятному для подальшої роботи на ЕОМ. Безпосередньо для віднесення коментарів до класу «токсичні» використано класифікатор логістичної регресії, метод класифікації за допомогою лінійних опорних векторів без та з методом навчання – стохастичним градієнтним спуском, класифікатор «випадковий ліс» та класифікатор з посиленням градієнта. З метою оцінки роботи класифікаторів використано методи підрахунку матриці помилок, точності, повноти та Ф-міри. Для більш узагальненої оцінки використано метод перехресної перевірки. Мова програмування –Python. Результати. На основі показників оцінки обрано найбільш результативні методи – метод опорних векторів (Linear SVM) без та з методом навчання за допомогою стохастичного градієнтного спуску. Описані технології можуть бути використані для аналізу текстових коментарів під будь-якими навчальними відео для виявлення токсичних відгуків. Також розроблений підхід може бути корисним для виявлення небажаної або навіть агресивної інформації в соціальних мережах або сервісах, де передбачені відгуки. Наукова новизна. У роботі використано комбінацію методів попередньої обробки специфічного виду тексту із врахуванням таких особливостей, як можливість наявності таймокодів, емоджі, посилань тощо, а також адаптовано класифікаційні методи машинного навчання для аналізу російськомовних коментарів. Практична значимість. Проведено оптимізацію (спрощення) процесу аналізу коментарів, необхідність якої обумовлена зростаючими обсягами текстових даних, особливо у сфері освіти через карантинні умови й перехід на дистанційну форму навчання. Обсяги навчального інтернет-контенту вже потребують автоматизації процесу обробки й аналізу відгуків із часом ця потреба тільки зростатиме.

Keywords