Cadernos de Fraseoloxía Galega (Dec 2004)
Extracción automática de colocacións e modismos
Abstract
Nas definicións estatísticas das colocacións estas son descritas como combinacións de palabras que coaparecen con máis frecuencia do que se prediciría a partir das súas frecuencias respectivas e a lonxitude do texto. Dende que Sinclair (1970) propuxo este suposto nos seus traballos leváronse a cabo, con diferentes criterios e métodos, múltiples estudos experimentais con córpora electrónicos dos que se obtiveron resultados diversos (p.ex. Berry-Roghe 1973; Church e Hanks 1989; Clear 1993; Dunning 1993). No noso traballo aplícanse métodos diferentes a un pequeno corpus literario da lingua española co fin de avaliar, co mesmo texto e os mesmos criterios, cada unha das ferramentas metodolóxicas que poderían ser empregadas na detección automática de colocacións en base a datos estritamente cuantitativos, as cales poderían tamén manexar locucións e mesmo refráns. // Statistical definitions of collocations describe them as combinations of words which co-occur more often than their respective frequencies and the length of the text would predict. Since Sinclair’s works (1970) proposed this assumption, many experimental works, with different methods and criteria, have been carried out with electronic corpora obtaining different results (e.g. Berry-Roghe 1973; Church & Hanks 1989; Clear 1993; Dunning 1993). Our work applies different methods to a small literary corpus in Spanish language, in order to evaluate, with the same text and the same criteria, each methodological tool that could be involved in automatic detection of collocations on the basis of strictly quantitative data, which should deal also with idioms and even proverbs.