Linguamática (Apr 2010)
Classificação Automática de Textos por Período Literário Utilizando Compressão de Dados Através do PPM-C
Abstract
Métodos e técnicas para compressão de dados têm sido utilizados para o reconhecimento de padrões, incluindo a classificação automática de textos. A eficiência do método Prediction by Partial Matching (PPM) como classificador textual já foi comprovada em diversos trabalhos, entre eles a atribuição de autoria para textos em português. As classes utilizadas no processo de classificação não precisam ficar restringidas a apenas um autor. Ao incluir dois ou mais autores numa mesma classe pode-se definir um estilo literário. Esse trabalho objetiva a aplicação do modelo estatístico PPM-C para a classificação de textos dos períodos literários da literatura brasileira.