Известия Алтайского государственного университета (Apr 2024)

Автоматическая классификация генетических мутаций на основе методов машинного обучения

  • Ольга Николаевна Половикова,
  • Анастасия Станиславовна Маничева,
  • Вячеслав Вячеславович Ширяев

DOI
https://doi.org/10.14258/izvasu(2024)1-18
Journal volume & issue
no. 1(135)
pp. 126 – 131

Abstract

Read online

В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь.

Keywords