Revista de Estudos da Linguagem (May 2020)

Wordsmith Tools e Sketch Engine: um estudo analítico-comparativo para pesquisas científicas com uso de corpora / Wordsmith Tools and Sketch Engine: an analytical-comparative study for scientific research with corpora manipulation

  • Guilherme Fromm,
  • Daniela Faria Grama,
  • Neubiana Silva Veloso Beilke,
  • Candice Guarato Santos

DOI
https://doi.org/10.17851/2237-2083.28.3.1191-1248
Journal volume & issue
Vol. 28, no. 3
pp. 1191 – 1248

Abstract

Read online

Resumo: O presente trabalho consiste na descrição e comparação de dois softwares de análise lexical, o WordSmith Tools (WST) e o Sketch Engine (SE). O corpus de estudo selecionado para a realização da análise comparativa entre os programas denomina-se LexTest, é composto por artigos, dissertações, resenhas e teses da área da Lexicologia, escritos em língua portuguesa, e apresenta 552.903 tokens. Os aspectos analisados no WST e no SE são: interface, configuração de línguas, upload de corpus, número de tokens e types, etiquetagem do corpus, lista de palavras, lista de palavras-chave; acesso às linhas de concordância, entre outros. A partir das análises comparativas, foi possível concluir que o WST e o SE são eficazes no que se propõem, uma vez que, por exemplo, processam palavras-chave, permitem configurar a língua conforme o corpus de estudo e calculam o número de tokens de um corpus. Entretanto, dependendo do objetivo da pesquisa, um desses softwares pode ser mais apropriado que o outro. A escolha pela utilização de um deles é de responsabilidade do pesquisador, que poderá consultar o quadro comparativo entre o WST e o SE apresentado no final deste artigo para fundamentar a sua preferência. Palavras-chave: Linguística de Corpus; WordSmith Tools; Sketch Engine. Abstract: The present work consists of the description and comparison of two lexical analysis software, WordSmith Tools (WST) and Sketch Engine (SE). The study corpus selected for the comparative analysis between the programs is called LexTest which is composed of articles, dissertations, reviews and theses about Lexicology. These texts are written in Portuguese, and the corpus has 552,903 tokens. The aspects analyzed in the WST and in the SE are: interface, language settings, corpus upload, number of tokens and types, corpus tagging, word list, keyword list, access to concordance lines, and so on. Based on the comparative analyzes, it was possible to conclude that the WST and the SE are effective in their purpose, because, for example, they process the keywords and allow configuring the language according to the study corpus and calculate the number of tokens; however, depending on the purpose of the research, one of these programs may be more appropriate than the other. The choice of one of them will be responsibility of the researcher, who may consult the comparative table between the WST and the SE, presented at the end of this paper to substantiate his or her preference. Keywords: Corpus Linguistics; WordSmith Tools; Sketch Engine.

Keywords