Alfa: Revista de Lingüística (Feb 2001)

A face quantitativa da linguagem: um dicionário de freqüências do português

  • Maria Tereza Camargo Biderman

Journal volume & issue
Vol. 42, no. 1

Abstract

Read online

<p>O <em>Dicionário de Freqüências</em> do léxico do português brasileirocontemporâneo baseou-se num corpus de língua escrita, variedade brasileirade 5 milhões de palavras (1950 a 1990). Alguns resultados quantitativos:apenas 42.212 unidades léxicas diferentes totalizaram os 5 milhões de ocorrênciasdo corpus, excluídos topónimos e antropônimos. Os dados estatísticosdo dicionário registram altíssima freqüência das palavras instrumentais(artigos, preposições, pronomes, conjunções etc.) bem como de verbos auxiliarese modalizadores. O mesmo ocorre com palavras de significação muito geral, arquilexemas, altamente polissêmicos. Na vertente oposta estão as palavras de baixa freqüência sobretudo os <em>hapax legomena</em>, que contribuemmaciçamente para o total de 42.212 lexias registradas neste corpus. De fato,as palavras de baixa freqüência totalizam grande parte desse <em>index verborum</em>;caso contrário, o repertório vocabular seria muito menor. A categoria <em>substantivo</em> contribui com a maioria de vocábulos que ocorreram apenas uma vez no <em>corpus</em>, assim como os tecnicismos da linguagem científica. O vocabulário jornalístico é o mais neutro e o menos temático, constituindo uma espéciede média entre os outros gêneros de linguagem.</p>

Keywords