Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Andrew Borodinov; Vladimir Manoilov; Igor Zarutsky; Alexander Petrov; Vladimir Kurochkin; Aleksey Saraev

doi:10.15622/ia.21.3.5

Информатика и автоматизация (May 2022)

Машинное обучение в задачах base-calling для методов секвенирования нового поколения

Andrew Borodinov,
Vladimir Manoilov,
Igor Zarutsky,
Alexander Petrov,
Vladimir Kurochkin,
Aleksey Saraev

Affiliations

Andrew Borodinov: Scientific Instruments Joint Stock Company
Vladimir Manoilov: Institute for Analytical Instrumentation of the Russian Academy of Sciences (IAI RAS)
Igor Zarutsky: Institute for Analytical Instrumentation of the Russian Academy of Sciences (IAI RAS)
Alexander Petrov: Institute for Analytical Instrumentation of the Russian Academy of Sciences (IAI RAS)
Vladimir Kurochkin: Institute for Analytical Instrumentation of the Russian Academy of Sciences (IAI RAS)
Aleksey Saraev: Institute for Analytical Instrumentation of the Russian Academy of Sciences (IAI RAS)

DOI: https://doi.org/10.15622/ia.21.3.5
Journal volume & issue: Vol. 21, no. 3
pp. 572 – 603

Abstract

Read online

Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Published in Информатика и автоматизация

ISSN: 2713-3192 (Print); 2713-3206 (Online)
Publisher: Russian Academy of Sciences, St. Petersburg Federal Research Center
Country of publisher: Russian Federation
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://ia.spcras.ru/index.php/sp/index

About the journal

Abstract

Keywords