Nauka ta progres transportu (Dec 2020)
ЗАСТОСУВАННЯ АЛГОРИТМІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ КОМЕНТАРІВ ПІД НАВЧАЛЬНИМ МАТЕРІАЛОМ НА ВІДЕОХОСТИНГУ «YOUTUBE»
Abstract
Мета. Автори мають на меті виявлення токсичних коментарів на відеохостингу «YouTube» під навчальним матеріалом шляхом класифікації неструктурованого тексту за допомогою комбінації методів машинного навчання. Методика. У роботі із зазначеним типом даних використано методи попередньої обробки для очищення, нормалізації, представлення текстових даних у вигляді, прийнятному для подальшої роботи на ЕОМ. Безпосередньо для віднесення коментарів до класу «токсичні» використано класифікатор логістичної регресії, метод класифікації за допомогою лінійних опорних векторів без та з методом навчання – стохастичним градієнтним спуском, класифікатор «випадковий ліс» та класифікатор з посиленням градієнта. З метою оцінки роботи класифікаторів використано методи підрахунку матриці помилок, точності, повноти та Ф-міри. Для більш узагальненої оцінки використано метод перехресної перевірки. Мова програмування –Python. Результати. На основі показників оцінки обрано найбільш результативні методи – метод опорних векторів (Linear SVM) без та з методом навчання за допомогою стохастичного градієнтного спуску. Описані технології можуть бути використані для аналізу текстових коментарів під будь-якими навчальними відео для виявлення токсичних відгуків. Також розроблений підхід може бути корисним для виявлення небажаної або навіть агресивної інформації в соціальних мережах або сервісах, де передбачені відгуки. Наукова новизна. У роботі використано комбінацію методів попередньої обробки специфічного виду тексту із врахуванням таких особливостей, як можливість наявності таймокодів, емоджі, посилань тощо, а також адаптовано класифікаційні методи машинного навчання для аналізу російськомовних коментарів. Практична значимість. Проведено оптимізацію (спрощення) процесу аналізу коментарів, необхідність якої обумовлена зростаючими обсягами текстових даних, особливо у сфері освіти через карантинні умови й перехід на дистанційну форму навчання. Обсяги навчального інтернет-контенту вже потребують автоматизації процесу обробки й аналізу відгуків із часом ця потреба тільки зростатиме.
Keywords