Acta Baltico-Slavica (Dec 2021)

O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach

  • Roman Roszko

DOI
https://doi.org/10.11649/abs.2576
Journal volume & issue
Vol. 45

Abstract

Read online

On New Manually Aligned and Tagged Bilingual Parallel Corpora and Their Applications This article is devoted to the manually aligned and tagged bilingual parallel CLARIN-PL-BIZ corpora of the Baltic and Slavic languages which are currently being developed. The study discusses the essential features of these corpora that make their applications go far beyond typical corpus analysis. Applications of these corpora include the design of cross-language models for the development of machine translation and artificial intelligence. The article also draws attention to the high potential of these resources as a model training base for testing natural language processing tools. O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach W artykule autor opisuje obecnie powstające ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe CLARIN-PL-BIZ języków bałtyckich i słowiańskich. Omawia wyróżniające cechy tych korpusów, które sprawią, że zastosowania tych korpusów znacznie wykroczą poza typowe analizy korpusowe. Wśród zastosowań tych korpusów autor wymienia definiowanie modeli międzyjęzykowych na rzecz rozwoju przekładu maszynowego i rozwoju sztucznej inteligencji. Zwraca również uwagę na wysoki potencjał tych zasobów jako wzorcowej bazy treningowej do testowania narzędzi przetwarzania języka naturalnego.

Keywords