El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE

Pilar Valverde

doi:10.1344/teisel.v3.42898

Tecnologías para la Investigación en Segundas Lenguas (Oct 2023)

El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE

Pilar Valverde

Affiliations

Pilar Valverde: Universidad Kansai Gaidai

DOI: https://doi.org/10.1344/teisel.v3.42898
Journal volume & issue: Vol. 3

Abstract

Read online

En este artículo se presenta el Corpus de ELE en Japón, CELEN (https://ske.li/qqr), una colección de textos escritos por hablantes de japonés (L1) con distintos grados de dominio del español como lengua extranjera, desde el nivel A1 hasta el nivel C2 del MCER. Los datos proceden de (1) universidades en Japón, donde el español se estudia como asignatura de lengua extranjera o como carrera, y (2) contextos de interacción real en Internet, como blogs electrónicos y foros. La versión 1.2, de abril de 2023, consta de 6.196 textos escritos por 1.035 aprendices, con un total de 658.467 palabras. En el apartado 1 se resume brevemente la situación del español en Japón y los corpus de aprendices existentes. En el apartado 2 se describen las características principales de CELEN, el proceso de recogida y anotación de los datos y la interfaz de consulta. En el apartado 3 se ilustra su uso con varios tipos de búsquedas (concordancias, colocaciones, listas de palabras y n-gramas), aplicadas a fenómenos lingüísticos relevantes en la docencia o la investigación en ELE: el uso de se, las preposiciones, la concordancia de género, el orden de palabras, las colocaciones verbales, la frecuencia léxica o las secuencias de categorías gramaticales más frecuentes. Se trata de un recurso abierto, que se actualiza periódicamente, y esperamos que otros profesores e investigadores puedan albergar sus textos en él para ofrecer a la comunidad científica una amplia muestra de aprendices japoneses de español. En la página web del proyecto (https://sites.google.com/view/celen) se puede consultar la guía de uso detallada y descargar íntegramente algunas partes del corpus bajo una licencia CC BY-NC 4.0.

Published in Tecnologías para la Investigación en Segundas Lenguas

ISSN: 2696-676X (Online)
Publisher: Universitat de Barcelona
Country of publisher: Spain
LCC subjects: Language and Literature: Philology. Linguistics: Computational linguistics. Natural language processing; Technology
Website: https://revistes.ub.edu/index.php/teisel/

About the journal

Abstract

Keywords