Информатика и автоматизация (Apr 2019)

О мерах сходства расположения компонентов в массивах естественно упорядоченных данных

  • Alexander Stepanovich Gumenyuk,
  • Artemiy Andreevich Skiba,
  • Nikolay Nikolaevich Pozdnichenko,
  • Stanislav Nikolaevich Shpynov

DOI
https://doi.org/10.15622/sp.18.2.471-503
Journal volume & issue
Vol. 18, no. 2
pp. 471 – 503

Abstract

Read online

В настоящее время не используются адекватные математические средства для анализа расположения компонентов в массивах естественно упорядоченных данных различной природы, в том числе – слов или букв в текстах, нотных знаков в записях музыкальных произведений, символов в знаковых последовательностях, данных мониторинга, чисел, отображающих упорядоченные результаты измерений, компонентов в генетических текстах. Поэтому затруднены или невозможны измерение и сравнение порядка следования сообщений, выделенных в длинных информационных цепях. Основные подходы при сравнении символьных последовательностей используют вероятностные модели и статистический инструментарий, попарное и множественное выравнивание, позволяющее определить степень сходства цепей с помощью мер редакционного расстояния. В некотором роде экзотическим являются использование псевдоспектрального и фрактального представления символьных последовательностей. Следует особо отметить «проклятие априорного неосознаваемого знания» об очевидной упорядоченности цепи, которое широко распространено в математической лингвистике, биоинформатике (математической биологии) и других аналогичных областях науки. Отмеченные подходы почти не уделяют внимания исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов, компонентов массивов данных, составляющих отдельную целостную последовательность. Объектом исследования в наших работах является специальным образом организованный числовой кортеж – расположение компонентов (строй) в символьных или числовых последовательностях. При этом в качестве основы для количественного отображения строя цепи используются интервалы между ближайшими одинаковыми её компонентами. Перемножение всех интервалов или суммирование их логарифмов позволяет получить числа, которые однозначно отображают расположение компонентов в конкретной последовательности. Эти числа, в свою очередь, позволяют получить целый набор нормированных характеристик строя, среди которых средний геометрический интервал и его логарифм. Такие характеристики на удивление точно отражают расположение компонентов в знаковых последовательностях. В данной работе представлен подход для количественного сравнения построений массивов естественно упорядоченных данных (информационных цепей) произвольной природы. Предложены меры сходства-расхождения и процедура сравнения строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам строя подпоследовательностей (компонентов). При этом для быстрого выделения списка совпадающих компонентов используются ранговые распределения. В работе представлен инструментарий для сравнения построений информационных цепей и продемонстрированы некоторые его возможности при исследовании строя нуклеотидных последовательностей.

Keywords