ReCIBE (Oct 2019)
Aplicación de Algoritmos de Votación en la Clasificación de Textos
Abstract
Los algoritmos de clasificación basada en la similitud entre textos, es un tópico de gran interés lo que es motivado por la relevancia y complejidad que presenta esta problemática y la gran cantidad de ámbitos que requieren de sistemas automatizados para resolverla. Por mencionar algunos ejemplos, se requiere de aplicaciones capaces de determinar de manera automática la sensibilidad de la información textual almacenada en archivos para decidir el grado de protección o diferenciar datos sensibles de aquellos que no lo son para prevenir o detectar su fuga o accesos no autorizados. Esto puede ser establecido con base en la importancia de su contenido. Así, una forma de abordar el problema es desde la perspectiva de la clasificación de textos con base en contexto. Para ello, es necesario desarrollar algoritmos que consideren la semántica de los documentos desde el momento que se generan y obtener su clasificación mediante un conjunto de características que incluyan rasgos textuales. En este trabajo, se definen los rasgos textuales y la relación semántica entre rasgos textuales. Considerando que un texto es la concatenación de rasgos textuales, la relación semántica de los rasgos textuales permite determinar su grado de pertenencia a un tema. Para la clasificación de textos, se aplican las etapas del modelo de algoritmos de votación desarrollados bajo el Reconocimiento Lógico Combinatorio de Patrones.