Современные информационные технологии и IT-образование (Jun 2023)
Исследование влияния batch size на качество обучения нейронных сетей
Abstract
Нейронные сети обучаются с использованием градиентного спуска — метода оптимизации, при котором оценка ошибки, используемая для обновления весов модели нейросети, рассчитывается на основе подмножества обучающего набора данных. Количество примеров из набора обучающих данных, используемых для оценки градиента ошибки, называется размером пакета (batch size), он является важным гиперпараметром, влияющим на динамику алгоритма обучения. В статье приведен анализ влияния размера пакета обучения для нейросетей разных типов — нейросетей глубокого обучения, сверточных, рекуррентных и больших языковых моделей на точность прогнозирования. Однако, как выяснилось в процессе исследования, неоднократное упоминание в источниках того, что размер batch size влияет на скорость обучения, на практике данное высказывание не было подтверждено экспериментальными значениями[TA2] . С этой целью был проведен эксперимент проверки влияния размера пакета обучающей выборки не только на точность распознавания (accuracy) и величину потерь (loss — разница между полученным значением предсказания и реальным), но и на затраченное время на процесс обучения. Результаты исследования размера пакета выявили, что он оказывает решающее влияние на точность распознавания изображений сверточных нейронных сетей, рекуррентных, нейросетей глубокого обучения и больших языковых моделей. Чем больше значение параметра, тем выше точность прогнозирования. С другой стороны, большое значение размера пакета приводит к увеличению требований к вычислительным ресурсам.
Keywords