Corpus ABG

Aline de Lima Benevides; Bruno Ferrari Guide

Texto Livre: Linguagem e Tecnologia (Jun 2017)

Corpus ABG

Aline de Lima Benevides,
Bruno Ferrari Guide

Affiliations

Aline de Lima Benevides: Universidade de São Paulo
Bruno Ferrari Guide: Universidade de São Paulo

Journal volume & issue: Vol. 10, no. 1

Abstract

Read online

RESUMO:Este artigo apresenta a metodologia empregada na compilação de um corpus linguístico do Português Brasileiro, o qual foi denominado de Corpus ABG, e no desenvolvimento de algumas ferramentas computacionais. O objetivo deste trabalho é reunir uma grande quantidade de textos, escritos e orais, que possa representar o falar brasileiro a fim de ser fonte de extração de dados fonológicos quantificados para duas pesquisas, a saber, Guide (2016) e Benevides (2017). O corpus contabiliza 3.616.625 ocorrências de palavras e 92.602 tipos de palavras, sendo que 1.938.805 ocorrências são provenientes dos corpora de fala e 1.676.820 ocorrências dos corpora escritos. Ancorado na metodologia da Linguística de Corpus e por meio de ferramentas computacionais desenvolvidas em Linguagem Python, o presente artigo divulga e disponibiliza à comunidade científica o Corpus ABG, as ferramentas computacionais (acentuador, categorizador de estruturas fonológicas, silabificador) e algumas informações fonológicas (acentuais e silábicas) já extraídas do corpus. Além disso, faz um convite a novas explorações dos dados a todos os pesquisadores que tiverem interesse. ABSTRACT:The present paper presents the task of compiling a linguistic corpus of Brazilian Portuguese, which was undertaken by the authors. It is called ABG Corpus, and this article is also about the computational tools developed for the task. Our main goal is to reunite a large amount of texts, both from spoken and written language to, in the best way possible, represent the Brazilian language in a way that we could use it as a database for our researches, Guide (2016) and Benevides (2017). The ABG corpus has 3.616.625 word tokens and 92.602 types of words, being that 1.938.805 of those tokens are from spoken language corpora and 1.676.820 tokens come from written corpora. Based on the corpus linguistics framework and through the use of computational tools developed using Python, this article shows and provides access to the ABG Corpus, the computational tools (stress marker, phonological structure identifier, syllabifier), as well as some phonological information (stress and syllable related), already present on the corpus. We end by inviting the community to further expand our findings and explore this new tool.

Published in Texto Livre: Linguagem e Tecnologia

ISSN: 1983-3652 (Online)
Publisher: Universidade Federal de Minas Gerais
Country of publisher: Brazil
LCC subjects: Technology; Language and Literature
Website: https://periodicos.ufmg.br/index.php/textolivre/

About the journal

Abstract

Keywords