International Journal of English Studies (IJES) (Dec 2011)

A statistical approach to term extraction

  • Rogelio Nazar

DOI
https://doi.org/10.6018/ijes.11.2.149691
Journal volume & issue
Vol. 11, no. 2
pp. 159 – 182

Abstract

Read online

This paper argues in favor of a statistical approach to terminology extraction, general to all languages but with language specific parameters. In contrast to many application-oriented terminology studies, which are focused on a particular language and domain, this paper adopts some general principles of the statistical properties of terms and a method to obtain the corresponding language specific parameters. This method is used for the automatic identification of terminology and is quantitatively evaluated in an empirical study of English medical terms. The proposal is theoretically and computationally simple and disregards resources such as linguistic or ontological knowledge. The algorithm learns to identify terms during a training phase where it is shown examples of both terminological and non-terminological units. With these examples, the algorithm creates a model of the terminology that accounts for the frequency of lexical, morphological and syntactic elements of the terms in relation to the non-terminological vocabulary. The model is then used for the later identification of new terminology in previously unseen text. The comparative evaluation shows that performance is significantly higher than other well-known systems.Este artículo presenta argumentos en favor de una aproximación estadística a la extracción de terminología, general a todas las lenguas pero con parámetros específicos para cada una de ellas. En contraste con la tendencia general en terminología aplicada, que suele ser específica de una lengua y un dominio de especialidad, el presente artículo adopta unos principios generales acerca de las propiedades estadísticas de la terminología especializada y un método para obtener los parámetros correspondientes a una lengua en particular. Este método se utiliza para la identificación automática de los términos en los textos, y su efectividad es evaluada en este artículo mediante un estudio empírico en el caso de la terminología médica en inglés. El modelo requiere escasa complejidad teórica y computacional, y no necesita recurrir a fuentes de conocimiento lingüístico u ontológico. Este algoritmo aprende automáticamente a identificar términos durante una fase de entrenamiento en que se utilizan conjuntos de ejemplos de unidades terminológicas y no terminológicas. Con estos ejemplos, el algoritmo elabora un modelo de los términos teniendo en cuenta la frecuencia de elementos léxicos, morfológicos y sintácticos en relación al vocabulario no terminológico. Sobre la base de este modelo, identificará luego nuevos términos en nuevos textos. El estudio comparativo demuestra que el presente algoritmo tiene un desempeño significativamente superior al de otros sistemas conocidos.

Keywords