Círculo de Lingüística Aplicada a la Comunicación (May 2023)

Métodos de lexicometría sociolingüística: análisis del corpus oral contemporáneo PRESEEA-Santander

  • Inmaculada Martínez Martínez,
  • Hiroto Ueda

DOI
https://doi.org/10.5209/clac.81206
Journal volume & issue
Vol. 94

Abstract

Read online

La lexicometría es un método que nos permite identificar unidades temáticas derivadas de la extracción automática de patrones de conocimiento en datos de naturaleza textual (Romero, Alarcón y García, 2018). De su aplicación emergen las tendencias léxicas de un corpus a través de la cuantificación de la ocurrencia de las palabras. Los distintos estilos léxicos sociolingüísticos se han estudiado en amplias variedades de las lenguas del mundo, incluida la lengua española. Sin embargo, no existen, en los estudios llegados a nuestro alcance hasta el momento, suficientes análisis cuantitativos del léxico de un corpus sociolingüístico oral contemporáneo. El objetivo general de este artículo es detectar las preferencias de uso del vocabulario de la lengua española hablada en el marco de la lexicometría sociolingüística. Para ello, se analizó una muestra representativa de un corpus estratificado en torno a tres variables (sexo, edad, nivel educativo). Dicha muestra pertenece al corpus PRESEEA-Santander, enmarcado en el Proyecto para el Estudio Sociolingüístico del Español de España y América (Moreno Fernández, 2021). En el análisis se empleó el sistema LYNEAL (Letras y Números en Análisis Lingüístico) (Autor, 2021), así como el software estadístico en código abierto R. La lexicometría es un método que nos permite identificar unidades temáticas derivadas de la extracción automática de patrones de conocimiento en datos de naturaleza textual (Romero, Alarcón y García, 2018). De su aplicación emergen las tendencias léxicas de un corpus a través de la cuantificación de la ocurrencia de las palabras. Los distintos estilos léxicos sociolingüísticos se han estudiado en amplias variedades de las lenguas del mundo, incluida la lengua española. Sin embargo, no existen, en los estudios llegados a nuestro alcance hasta el momento, suficientes análisis cuantitativos del léxico de un corpus sociolingüístico oral contemporáneo.El objetivo general de este artículo es detectar las preferencias de uso del vocabulario de la lengua española hablada en el marco de la lexicometría sociolingüística. Para ello, se analizó una muestra representativa de un corpus estratificado en torno a tres variables (sexo, edad, nivel educativo). Dicha muestra pertenece al corpus PRESEEA-Santander, enmarcado en el Proyecto para el Estudio Sociolingüístico del Español de España y América (Moreno Fernández, 2021). En el análisis se empleó el sistema LYNEAL (Letras y Números en Análisis Lingüístico) (Ueda, 2021), así como el software estadístico en código abierto R. Los resultados apuntan a que el sexo se revela como una variable importante en el proceso de variación léxica al detectarse, entre otros hallazgos, el uso del estilo nominal sobre el verbal y el empleo preferente de adverbios en -mente por parte del hombre; con respecto a la edad, se advierte la tendencia al empleo del truncamiento léxico en la generación de jóvenes y en el género mujer; por último, se aprecia la concentración de uso de muchísimo en mujer, joven, de nivel primario de instrucción.

Keywords