Texto Livre: Linguagem e Tecnologia (Jul 2018)
Sistema automático de transcrição fonológica para o português
Abstract
RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica. ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005. BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002. BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: . Acesso em: mai. 2012. BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981. CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016. CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: . Acesso em: 10 ago. 2017. CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968. HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96. HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: . Acesso em: 15 ago. 2013. JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006. SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015. SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215. VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008. VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.