Challenges and Issues of Modern Science (Jun 2024)
Визначення віку людини за фото на основі нейронних мереж
Abstract
Метою цієї роботи було порівняти різні архітектури нейронних мереж для задачі оцінки віку за зображеннями облич. Оскільки вік є неперервною змінною, задачу визначення віку людини за зображеннями її обличчя розглядають як задачу регресії. У цій роботі використовувався набір даних UTKFaces. Цей набір містить 24 000 анотованих зображень, категоризованих за статтю, расою та віком. Для вирішення задачі було обрано чотири архітектури для навчання: AlexNet, VGG-19, ResNet-50 та Inception-v4. Ці архітектури згорткових нейронних мереж показали значні досягнення в класифікації зображень на наборі даних ImageNet. AlexNet впровадив використання ReLU-активації, dropout та max-pooling, тоді як VGG-19 підкреслив глибші архітектури з малими фільтрами. ResNet-50 вирішив проблему зникнення градієнта за допомогою залишкових зв'язків, а Inception-v4 покращив ефективність і потік градієнта за допомогою оптимізованих блоків та залишкових зв'язків. У всіх мережах останній шар був замінений на повнозв'язний шар з одним нейроном і лінійною активаційною функцією. Під час навчання як функцію втрат використовували середньоквадратичну помилку (MSE), а як метричну якості – середню абсолютну помилку (MAE). Дані були розділені на навчальний та тестовий набори у співвідношенні 90% до 10%. Перед навчанням зображення були нормалізовані та змінені до розмірів, що відповідають вимогам кожної нейронної мережі. AlexNet та VGG-19 навчалися з використанням оптимізатора SGD з коефіцієнтом навчання 0.2, ResNet-50 навчався з використанням оптимізатора Adam з коефіцієнтом навчання 0.02, а Inception-v4 навчався з використанням оптимізатора Adadelta з коефіцієнтом навчання 0.02. Ці методи та їхні параметри були обрані як найкращі після обчислювальних експериментів. Кожна мережа навчалася різну кількість епох, необхідних для збіжності. Після навчання VGG-19 та ResNet-50 досягли значень MAE 2.7 та 3.5 відповідно, тоді як Inception-v4 мала значення MAE 3.87. AlexNet продемонстрував значне перенавчання. ResNet-50 обробляв зображення найшвидше.