Calidoscópio (May 2021)
Compilação de corpus: representatividade e o CORPOBRAS
Abstract
O objetivo deste trabalho é discutir a importância do parâmetro da representatividade no design e compilação de corpus, mostrando a sua relevância para estudos que visem desenvolver uma descrição abrangente da língua. Este trabalho também apresenta um corpus do português do Brasil, o CORPOBRAS, em desenvolvimento, cujo parâmetro norteador tem sido a representatividade. Este corpus compõe-se, atualmente, de 27 gêneros do discurso oral, discurso escrito e discurso escrito para ser falado. Com a finalidade de ilustrar possíveis usos do CORPOBRAS, no final do trabalho, são listadas algumas pesquisas que utilizaram dados do corpus em suas análises. Palavras-chave: CORPOBRAS, corpus do português do Brasil, linguística de corpus, variação entre gêneros discursivos, representatividade, discurso oral e escrito.