Ciência da Informação (Jun 1983)
Indexação automática baseada em métodos lingüísticos e estatísticos e sua aplicabilidade à língua portuguesa
Abstract
Considera-se neste artigo a indexação automática usando o processamento de documentos em linguagem natural, que é obtido com o auxílio de métodos linguísticos combinados com métodos estatísticos permitindo uma indexação ponderada. A título ilustrativo descreve-set em linhas gerais, um sistema de indexação desse género denominado SPIRIT, o qual foi desenvolvido para o idioma francês por uma equipe de pesquisadores do CNRS. Enfim, são tratados aspectos essenciais de sua adaptação à língua portuguesa. Descritores Ambiguidade. Análise sintética. Entropia. Estatística. Filtros. Indexação automática. Indexação ponderada. Linguística. Matrizes de precedência. Método de aprendizado. Proximidade. Relações léxicosemânticas. Abstract This paper deals with automatic indexing based on linguistic and statistical methods, which aims to allow the processing of documents in natural language. The main lines of a system called SPIRIT, that uses such methods, and that was developed for the French Languages by a group of researchers of the CNRS, including the first author,is described. Some basic aspects of the applicability of those methods to the Portuguese Language are considered.