Novye Issledovaniâ Tuvy (Jun 2025)
Историко-поэтический подкорпус Национального корпуса казахского языка
Abstract
В статье анализируются ключевые аспекты оцифровки образцов устного народного творчества казахского народа XV–XIX вв., написанных на арабской графике, и их интеграция в Национальный корпус казахского языка (НККЯ). Данная работа составляет первый этап создания историко-поэтического подкорпуса НККЯ. В ходе исследования проведён сравнительный анализ существующих поэтических подкорпусов на других языках (русский, чешский, башкирский и персидский), что позволило выявить наиболее эффективные методы и подходы для создания казахского подкорпуса. Важным результатом работы стало создание модели метатекстовой разметки, включающей 28 параметров, с учётом специфики казахской поэзии. Были определены ключевые элементы казахского стиха: структура строф, количество слогов, рифмы и стопы. Разработанная разметка позволяет точно отражать поэтические особенности текстов и учитывать влияние восточной литературы и народных жанров на развитие казахской поэтической традиции. Одной из важных инноваций стала семантическая разметка устаревших слов. Представлена разработка интерфейса подкорпуса, который даёт возможность пользователям исследовать поэтические произведения в арабской графике и их транскрибированные варианты на кириллице. Это делает подкорпус ценным инструментом для лингвистических и литературных исследований.
Keywords