Journal of Applied Linguistics and Lexicography (Sep 2021)
Изучение терминологических подсистем современных школьных учебников на русском языке с помощью модели анализа семантики естественных языков Word2Vec
Abstract
Цель исследования, первые результаты которого представлены в настоящей статье, — анализ состава и особенностей функционирования терминологической лексики в учебниках для средней школы Российской Федерации с помощью методов и средств компьютерной лингвистики. Количество терминов из разных областей знания, которое школьник должен усвоить за время обучения в средней школе, никогда не подвергалось оценке. По предварительным подсчетам, произведенным на материале Примерной основной образовательной программы общего и среднего образования 2015 года только в части предмета «Русский язык», ученик в 5–11 классах средней школы должен понимать, распознавать и уметь употреблять около 1000 терминов и терминологических сочетаний из этой сферы знания. Таким образом, учитывая количество школьных дисциплин, общее число единиц специальной лексики, изучаемых в общеобразовательной школе, измеряется тысячами. В то же время сопоставительные характеристики состава и функционирования терминов в учебниках для разных школьных предметов не изучены и остаются неизвестными. Неясна корреляция между терминологической плотностью учебного текста в школьных учебниках по разным предметам и местом, занимаемым этими предметами в учебных планах. Традиционным способом вычленения терминов из специальных текстов является их просмотр и «ручное» формирование соответствующих перечней. При надежности такого способа в отношении интеллектуализации принципов отбора он плохо приложим к большим массивам данных и не отражает ни частотность употребления терминов, ни специфику их синтагматических связей, ни системные отношения между терминами, формируемые их сочетаемостным поведением. Реализация описываемого проекта предусматривает создание полнотекстового корпуса на материале текстов школьных учебников 5–11 классов, включенных в Федеральный перечень Министерства просвещения РФ, автоматическое вычленение и стратификацию терминов при помощи методов дистрибутивной семантики, создание и обучение глубокой нейросети, способной по поданной на вход группе векторных представлений терминов определить учебную дисциплину, уровень обучения и учебную тему. Результаты исследования могут представлять теоретический интерес в перспективе развития терминоведения и иметь практическое применение при создании школьной учебной литературы разных типов.
Keywords