Вестник КазНУ. Серия математика, механика, информатика (Sep 2020)

Распознавание именованных объектов для казахского языка

  • Z. M. Kozhirbayev,
  • Z. A. Yessenbayev

DOI
https://doi.org/10.26577/JMMCS.2020.v107.i3.06
Journal volume & issue
Vol. 107, no. 3
pp. 57 – 66

Abstract

Read online

аспознавание именованных объектов (NER) считается одной из важных задач обработки естественного языка (NLP). Это способ распознавания объектов реального мира, таких как географическое положение, имя человека, организация и т. д., которые встречаются в предложении. Существует несколько подходов, основанных на созданных вручную правилах грамматики и статистических моделях, таких как машинное обучение и гибридные методы, для решения задачи распознавания именованных объектов. Цель данной работы состоит в том, чтобы поэкспериментировать с методами, основанными на статистическом подходе и на машинном обучение, и проверить как они справляются с агглютинативным казахским языком. В данной работе представлено распознавание именованных объектов на основе подхода машинного обучения, называемого условным случайным полем (CRF), как статистический метод. А также мы используем гибридный подход, сочетающий двунаправленную модель нейронной сети с долгой краткосрочной памятью (LSTM) и модель CRF. Это современный подход к распознаванию именованных объектов. Модель с перекрестным проверенным рандомизированным поиском показывает оценку f1 с 0,95. Гибридная модель LSTM-CRF показывает оценку f1 с 0,88. Результаты выглядит довольно хорошо, и это не требует каких-либо особенностей разработки по сравнению с моделью CRF. Для проведения экспериментов, был создан корпус (kazNER) для задачи NER с такими метками, как имя человека, местоположение, организация и другие. Корпус состоит из 29629 предложений, которые содержат хотя бы одно собственное существительное, содержащее только теги части речи.

Keywords