Revista Cubana de Ciencias Informáticas (Oct 2011)

CorpusMiner 1.0: Herramienta para el agrupamiento de documentos

  • Yoisy Pérez,
  • Juan Manuel Mederos,
  • Libernys Valdés,
  • Rafael Bello,
  • Leticia Arco

Journal volume & issue
Vol. 1, no. 2

Abstract

Read online

CorpusMiner 1.0 permite formar grupos de documentos similares en un corpus textual. El agrupamiento puede ser duro o borroso. Mediante el uso de métodos de agrupamiento concatenados, no es necesario tener un conocimiento del dominio para inicializar los métodos a utilizar. El agrupamiento se realiza a partir de una representación espacio-vectorial del corpus. Se permite la aplicación de técnicas de selección de rasgos, así como diferentes funciones para el cálculo de la similitud de documentos que mejoran la eficiencia del mismo. Esta herramienta es útil en la extracción de resúmenes, categorización, clasificación, y verificación de homogeneidad de un corpus textual.

Keywords