Revista de Estudos da Linguagem (Apr 2021)
Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu
Abstract
Resumo: A disponibilidade de recursos para o processamento computacional constitui um dos fatores de sobrevivência de uma língua. O objetivo deste trabalho foi implementar um fragmento do nheengatu no formalismo Grammatical Framework, especialmente projetado para o desenvolvimento de aplicações multilíngues. Outrora mais falado que o português na Amazônia, o nheengatu está ameaçado de extinção, embora ainda conte com estimados 14000 falantes. O fragmento restringe-se a orações que expressam estados contingentes e não-contingentes, mas inclui fenômenos gramaticais estruturalmente complexos típicos da família tupi-guarani, os quais contrastam fortemente com as construções equivalentes em português e inglês. Constitui um dos módulos da GrammYEP, uma gramática computacional multilíngue que integra módulos análogos do inglês e do português. A implementação tomou como ponto de partida as descrições gramaticais não formalizadas de Navarro (2011) e Cruz (2011). A formalização revelou lacunas e inconsistências nessas abordagens, em parte sanados por meio de uma reanálise dos dados. A GrammYEP alcançou resultados bastantes satisfatórios na tradução do e para o nheengatu. Traduziu para o português e o inglês a totalidade de um conjunto-teste de 142 sentenças dessa língua. Inversamente, verteu para o nheengatu 98,18% e 84,11% dos conjuntos-teste correspondentes em português e inglês. Por outro lado, analisou apenas dois exemplos de um conjunto-teste negativo com 171 construções agramaticais em nheengatu. Desta avaliação resultou um treebank com 243 sentenças do nheengatu, emparelhadas com as sentenças equivalentes em português e inglês. Palavras-chave: língua geral amazônica (LGA); tupi moderno; predicação qualificativa; construção possessiva; tradução automática; linguística computacional; processamento de linguagem natural. Abstract: The availability of resources for computational processing is one of the survival factors of a language. The goal of this work was to implement a fragment of Nheengatu in the Grammatical Framework formalism, specially designed for the development of multilingual applications. Once more widely spoken than Portuguese in the Amazon region, Nheengatu is threatened with extinction, although it still has an estimated number of 14,000 speakers. The fragment is restricted to sentences that express contingent and non-contingent states, but includes structurally complex grammatical phenomena typical of the Tupí-Guaraní family, which strongly contrast with the equivalent constructions in Portuguese and English. It constitutes one of the modules of GrammYEP, a multilingual computational grammar comprising equivalent English and Portuguese modules. The starting point of the implementation was the non-formalized grammatical descriptions of Navarro (2011) and Cruz (2011). The formalization revealed gaps and inconsistencies in these approaches, which were partly remedied through a reanalysis of the data. GrammYEP achieved quite satisfactory results in the translation from and to Nheengatu. It translated into Portuguese and English all examples from a test set with 142 Nheengatu sentences. Conversely, 98.18% and 84.11% of the corresponding Portuguese and English test sets were rendered into Nheengatu. On the other hand, it parsed only two examples from a negative test set with 171 ungrammatical constructions in Nheengatu. This evaluation resulted in a treebank with 243 Nheengatu sentences, paired with the equivalent sentences in Portuguese and English. Keywords: Amazonian Lingua Franca; Modern Tupí; qualifying predication; possessive construction; machine translation; computational linguistics; natural language processing.
Keywords