Linguamática (Dec 2012)
Bifid: un alineador de corpus paralelo a nivel de documento, oración y vocabulario
Abstract
Este artículo presenta un algoritmo que integra distintos aspectos del procesamiento de corpus paralelo y que ha sido implementado como una aplicación web. El trabajo se enmarca en la lingüística computacional pero puede interesar a terminólogos, traductores y estudiantes de lenguas extranjeras. El sistema está diseñado para operar con cualquier par de lenguas ya que es exclusivamente estadístico. Acepta como entrada un corpus paralelo definido como un conjunto de documentos en una lengua A y sus traducciones en una lengua B. Sin requerir más especificaciones, el sistema puede separar el conjunto de documentos en las dos lenguas, alinear cada documento con su traducción y luego alinear los segmentos dentro de cada par de documentos para producir finalmente un vocabulario bilingüe que incluye unidades poliléxicas.