PROPUESTA DE EXTRACCIÓN AUTOMÁTICA DE CANDIDATOS A TÉRMINO DEL DOMINIO MÉDICO PROCESANDO INFORMACIÓN LINGÜÍSTICA. DESCRIPCIÓN Y EVALUACIÓN DE RESULTADOS

Walter KOZA ORELLANA

doi:10.1590/1981-5794-1502-5

Alfa: Revista de Lingüística (Jun 2015)

PROPUESTA DE EXTRACCIÓN AUTOMÁTICA DE CANDIDATOS A TÉRMINO DEL DOMINIO MÉDICO PROCESANDO INFORMACIÓN LINGÜÍSTICA. DESCRIPCIÓN Y EVALUACIÓN DE RESULTADOS

Walter KOZA ORELLANA

Affiliations

Walter KOZA ORELLANA

DOI: https://doi.org/10.1590/1981-5794-1502-5
Journal volume & issue: Vol. 59, no. 1
pp. 113 – 128

Abstract

Read online

Se presenta la descripción de un método de extracción automática de candidatos a términos del área médica a partir del procesamiento de información lingüística. Para ello, se trabajó con reglas en el nivel léxico, morfológico y sintáctico. En primer lugar, se realizó la detección aplicando un diccionario estándar, el cual asignó a las palabras consideradas términos, la etiqueta MED (MÉDICO). Luego, para las palabras que no estaban contempladas en el diccionario (PNCD), se dedujeron las categorías gramaticales apelando a reglas morfológicas y sintácticas. Posteriormente, se procedió a la conformación de sintagmas nominales que involucraban PNCD y MED, para extraerlos como candidatos a términos del dominio. Se utilizaron los softwares Smorph y Módulo Post Smorph (MPS), que trabajan en bloque, y Xfst. Smoprh realiza el análisis morfológico y MPS trabaja sobre gramáticas locales. Xfst, por su parte, es una herramienta de estados finitos que opera sobre cadenas de caracteres, a las que asigna categorías previamente declaradas. El método se probó en una parte del corpus de casos clínicos compilado por Burdiles (2012), que contenía 217258 palabras, y los resultados arrojaron una precisión de 92,58%, una cobertura de 95,02% y una medida f de 93,78%.

Published in Alfa: Revista de Lingüística

ISSN: 0002-5216 (Print); 1981-5794 (Online)
Publisher: Universidade Estadual Paulista Júlio de Mesquita Filho
Country of publisher: Brazil
LCC subjects: Language and Literature: Philology. Linguistics
Website: http://www.scielo.br/scielo.php?script=sci_serial&pid=1981-5794&lng=en&nrm=iso

About the journal

Abstract

Keywords