Revista Binacional Brasil - Argentina (Jul 2019)
CORPUS ELETRÔNICO DE DOCUMENTOS HISTÓRICOS DO SERTÃO: ETAPA 1 (1750-2000)
Abstract
Este trabalho apresenta o Banco CE-DOHS – Corpus Eletrônico de Documentos Históricos do Sertão, na sua primeira etapa, que abrange o período que vai de 1750 a 2000, caracterizado pelo multilinguismo localizado. O CE-DOHS é a versão eletrônica –com textos editados em linguagem xml – do banco DOHS, do projeto Vozes do Sertão em Dados: história, povos e formação do português brasileiro, com textos em edição semidiplomática, além de amostras orais. A edição eletrônica é feita, no âmbito do CE-DOHS, usando o eDictor, desenvolvido por Paixão de Sousa, Kepler e Faria (2010); trata-se de um editor de textos especialmente voltado ao trabalho filológico e à análise linguística automática. Finalizada a primeira etapa, no ano de 2018, o banco CE-DOHS tem mais de um milhão de palavras, colaborando, de maneira muito significativa, com o Projeto Nacional para a História do Português Brasileiro (PHPB), do qual é parceiro.
Keywords