Cuadernos de Lingüística Hispánica (Jan 2022)
Traducción automática de un conjunto de entrenamiento para extracción semántica de relaciones*
Abstract
La traducción automática (TA) se utiliza para obtener corpus anotados a partir de corpus provenientes del idioma inglés, los cuales pueden ser aplicables a diferentes tareas de procesamiento de lenguaje natural (PLN). Teniendo en cuenta que existen más recursos o conjuntos de datos para entrenamiento de modelos de PLN en idioma inglés, en este trabajo se explora la aplicación de la TA para automatizar tareas de PLN en el idioma español. De esta forma, en el artículo se describe un conjunto de datos para la extracción de relaciones genéricas (reACE) y la construcción de un modelo extracción semántica de relaciones en español (ER), basado en el conjunto de muestras traducidas del idioma inglés al español. Los resultados muestran que para la tarea de TA es necesario implementar un proceso de preedición del corpus en inglés, con el fin de evitar errores de traducción, posedición y mantener las anotaciones del corpus original. Los modelos ER en español alcanzan medidas de precisión, exhaustividad y valor-F comparables con las obtenidas por el modelo en el lenguaje de inglés, lo que sugiere que la traducción automática es una herramienta útil para realizar tareas de PLN en el idioma español.
Keywords