Revista Nebrija de Linguistica Aplicada a la Enseñanza de Lenguas (Dec 2020)
Estudio comparativo de métodos de transcripción para corpus orales: el caso del español
Abstract
Los avances tecnológicos han propulsado la metodología de investigación en transcripción. Los programas para corpus lingüísticos basados en modelos estadísticos y de aprendizaje profundo han mejorado las fases de alineación y anotación. En cambio, cuando se trata de transcribir el material, la carga interpretativa y la propia naturaleza de las conversaciones obstaculizan la automatización del proceso. De esta manera, la transcripción de entrevistas destinadas al estudio de la lengua oral se sigue haciendo con un reproductor y un teclado, y puede convertirse en uno de los aspectos más largos del procesamiento de datos. Sin embargo, en otros contextos profesionales, el reconocimiento automático del habla se emplea para transcribir de forma eficaz gracias a la colaboración humano-computadora. Las técnicas y estrategias difieren, pero todas tienen en común que estabilizan las fluctuaciones de las herramientas informáticas y son más rápidas que otros métodos. En este estudio se ha utilizado una de ellas, el rehablado off-line con las entrevistas del Corpus oral de la lengua española en Montreal. Se ha medido el tiempo empleado, así como la precisión y se ha comparado con el reconocimiento automático del habla y con la mecanografía. El rehablado off-line ha permitido el uso de un programa automático de dictado en su estado actual como herramienta para potenciar la transcripción de entrevistas en menos tiempo y con menos errores.
Keywords