Programación Matemática y Software (Feb 2014)

Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español

  • Yesenia Nohemí González Meneses,
  • Blanca Estela Pedroza Méndez,
  • Francisco López Briones,
  • Carlos Pérez Corona ,
  • José Federico Ramírez-Cruz

Journal volume & issue
Vol. 6, no. 1

Abstract

Read online

En este artículo se analiza uno de los problemas más representativos en el tratamiento del lenguaje español, que es el de la ambigüedad en la acentuación gráfica de las palabras. En la escritura del español se utiliza el acento gráfico o tilde, el cual determina la pronunciación o interpretación correcta de las palabras. Algunos vocablos de construcción similar pueden llevar tilde o no, o la llevan en diferente sílaba, lo cual permite que tomen diferentes sentidos en relación con su contexto, para lo cual se utiliza la llamada tilde diacrítica. La asignación correcta de la tilde diacrítica en este proyecto es abordada como un problema de clasificación, donde con base en el contexto se determina si las palabras ambiguas llevan esta marca o no. Para ello se entrenó un modelo con el clasificador naive Bayes.

Keywords