Идентификация автора исходного кода методами машинного обучения

Anna Vladimirovna Kurtukova; Alexander Sergeevich Romanov

doi:10.15622/sp.2019.18.3.741-765

Информатика и автоматизация (Jun 2019)

Идентификация автора исходного кода методами машинного обучения

Anna Vladimirovna Kurtukova,
Alexander Sergeevich Romanov

Affiliations

Anna Vladimirovna Kurtukova: Tomsk State University of Control Systems and Radioelectronics (TUSUR)
Alexander Sergeevich Romanov: Tomsk State University of Control Systems and Radioelectronics (TUSUR)

DOI: https://doi.org/10.15622/sp.2019.18.3.741-765
Journal volume & issue: Vol. 18, no. 3
pp. 742 – 766

Abstract

Read online

Статья посвящена анализу проблемы определения автора исходного кода, которая представляет интерес для исследователей в области информационной безопасности, компьютерной криминалистики, оценки качества образовательного процесса, защиты интеллектуальной собственности. Представлен подробный анализ современных решений проблемы. Предлагаются две новые методики идентификации на основе алгоритмов машинного обучения: машины опорных векторов, фильтра быстрой корреляции и информативных признаков; гибридной сверточно-рекуррентной нейронной сети. Эксперименты проводились на базе исходных кодов, написанных на наиболее популярных языках программирования. В экспериментальную базу вошли экземпляры исходных кодов, написанных на Java, C++, Python, PHP, JavaScript, C, C# и Ruby. Данные были получены с веб-сервиса для хостинга IT-проектов Github. Общее количество исходных кодов превышает 150 тысяч образцов, средняя длина каждого из которых составляет 850 символов. Размер корпуса — 542 автора. С помощью перекрестной проверки по 10 блокам оценена точность разработанных методик для различного количества авторов. Для наиболее популярного языка программирования Java проведен дополнительный ряд экспериментов с количеством авторов от 2 до 50 и приведены графики зависимости точности идентификации от размера корпуса. Анализ результатов показал, что методика на основе гибридной нейронной сети способна достигать точности 97%, что является наилучшим результатом на сегодняшний день. Методика на основе машины опорных векторов позволила добиться точности 96%. Гибридная нейронная сеть оказалась точнее машины опорных векторов в среднем на 5%.

Published in Информатика и автоматизация

ISSN: 2713-3192 (Print); 2713-3206 (Online)
Publisher: Russian Academy of Sciences, St. Petersburg Federal Research Center
Country of publisher: Russian Federation
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://ia.spcras.ru/index.php/sp/index

About the journal

Abstract

Keywords