Mìkrosistemi, Elektronìka ta Akustika (Aug 2021)

Метод трансформації класифікаційних міток зображення в сегментаційні маски

  • Volodymyr Serhiiovych Sydorskyi

DOI
https://doi.org/10.20535/2523-4455.mea.262933
Journal volume & issue
Vol. 27, no. 2

Abstract

Read online

Задача бінарної або багато класової сегментації зображення постає в багатьох областях промисловості, медицини, сільського господарства та інших прикладних областях діяльності людини. На даний момент існує велика кількість алгоритмів машинного навчання, які можуть бути використані для цього, проте найбільш ефективним підходом на сьогодні є згорткові нейронні мережі. Водночас нейронні мережі потребують більших тренувальних вибірок в порівнянні з класичними алгоритми машинного навчання. Водночас накопичення тренувальної вибірки потребує великої кількості людських і фінансових ресурсів, а також часу. Отже постає задача дослідити методи зменшення кількості ресурсів для накопичення тренувального набору даних. Попередні дослідження в цій сфері були присвячені методам часткового навчання або ж навчання без вчителя. Проте всі вони потребують накопичення певної тренувальної вибірки - масок для зображень. В даному дослідженні буде розглянуто інший підхід - трансформація класифікаційної розмітки (міток класів) в сегментаційну (маски зображень). Важливо зазначити, що подібні підходи достатньо нові та малодосліджені. Запропонований метод не потребує накопичення масок зображень, а значить і великої кількості ресурсів для їх збору. Розглянутий метод грунтується на алгоритмі GradCam, який дає можливість отримати активаційну маску зображення, маючи лише мітку классу. Проте для подальшого використання отриманої маски, необхідно застосувати ряд перетворень для покращення якості сегментації. Для підтвердження ефективності запропонованого методу були проведені експерименти на задачі сегментації дефектів на листах сталі — Kaggle-Severstal: Steel Defect Detection. Експериментальні результати показали адекватність запропонованого підходу - було отримано маски, якість яких достатня для локалізації дефектів. Результати були оцінені за метрикою Dice: класична схема тренування - 0.621, запропонований підхід - 0.465. Проте запропонований метод потребує значно менше ресурсів в порівнянні з підходам класичного навчання та багатьма підходами часткового навчання.

Keywords