Науковий вісник НЛТУ України (May 2024)
Дослідження впливу обрізання та тонкого налаштування моделі автоматичного розпізнавання мовлення на її точність
Abstract
Досліджено вплив методів обрізання моделі та тонкого її налаштування на точність автоматичного розпізнавання мовлення ASR (англ. Automatic Speech Recognition) для мови з низьким ресурсом. Використану модель "wav2vec2-xls-r-300 m-uk", попередньо навчено на великому багатомовному наборі даних і тонко налаштовано на українському наборі даних із Common Voice. Метод обрізання за L1-нормою було застосовано на різних рівнях (10, 20, 30, 40, 50 %%) без подальшого налаштування, що виявило значне зниження точності (метрика WER (англ. Word Error Rate) збільшилася з 18,53 до 35,96 %%, метрика CER (англ. Character Error Rate) – з 3,5 до 7,97 %%). Встановлено, що зі збільшенням ступеня обрізання точність моделей поступово знижується, однак подальше тонке налаштування значно покращує продуктивність (метрика WER знизилася до 22,81 %, метрика CER – до 4,55 %). Оцінено вплив кількості епох тонкого налаштування на точність моделі, що показало поступове покращення продуктивності зі збільшенням епох (найкращі результати за 20 епох: метрики WER 22,81 %, CER 4,55 %). З'ясовано, що тонке налаштування здатне частково відновити втрату точності, спричинену обрізанням. Наукова новизна дослідження полягає в комплексному аналізі методів обрізання та тонкого налаштування для низькоресурсних мов на прикладі української мови. Виявлено, що комбіноване використання методів обрізання, перенесення навчання та тонкого налаштування є перспективним для підвищення продуктивності та точності ASR моделей. З'ясовано, що методи обрізання дають можливість зменшити розмір моделі та підвищити її ефективність, що є критичним для пристроїв з обмеженими ресурсами. Охарактеризовано закономірності між ступенем обрізання та ефективністю моделі, що вказують на можливість досягнення балансу між продуктивністю та точністю. З'ясовано, що ефективність моделей для мов з низьким ресурсом значно залежить від кількості та якості навчальних даних, а також від методів їх оброблення. Перспективи подальших досліджень містять аналіз різних методів обрізання, розроблення нових підходів до тонкого налаштування та перенесення навчання з використанням додаткових лінгвістичних ознак. Це сприятиме створенню більш ефективних систем розпізнавання мовлення для мов із низьким ресурсом, що дасть змогу подолати технологічний розрив і покращити доступність мовних технологій у глобальному масштабі.
Keywords