Perspectivas em Ciência da Informação (May 2019)
Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação
Abstract
Resumo A quantidade de dados não estruturados cresce com a popularização da Internet. Textos em linguagem natural representam um conjunto relevante e significativo para análise e produção de conhecimento. Este trabalho propõe uma análise quantitativa das etapas de pré-processamento e de treinamento de um classificador de textos, que utiliza os sentimentos expressos pelos usuários como atributo. Para realização dos experimentos, foram utilizadas Redes Neurais Artificiais, como algoritmo classificador, e textos provenientes dos sites Amazon, IMDB e Yelp. A base textual permite análise da expressão de sentimentos positivos e negativos dos usuários em avaliações de produtos e serviços em textos não estruturados. Foram realizados dois processos distintos de pré-processamento e diferentes treinamentos das Redes Neurais Artificiais para classificação do conjunto textual. Os resultados confirmam, quantitativamente, a importância das etapas de pré-processamento e de treinamento do classificador, evidenciando a importância do vocabulário selecionado para a representação do texto e para a classificação. As técnicas de classificação disponíveis alcançam resultados satisfatórios. No entanto, mesmo utilizando-se dois processos distintos de pré-processamento e identificando-se o melhor processo de treinamento, não foi possível eliminar, totalmente, as dificuldades de aprendizado e compreensão do modelo para as classificações de sentimentos que envolviam características subjetivas da expressão do sentimento humano.
Keywords