A Corpus-based Survey of Four Electronic Swahili–English Bilingual Dictionaries

Lexikos. 2011;19 DOI 10.5788/19--443


Journal Homepage

Journal Title: Lexikos

ISSN: 1684-4904 (Print); 2224-0039 (Online)

Publisher: Woordeboek van die Afrikaanse Taal-WAT

Society/Institution: Stellenbosch University

LCC Subject Category: Language and Literature: Philology. Linguistics | Language and Literature: Languages and literature of Eastern Asia, Africa, Oceania | Language and Literature: Germanic languages. Scandinavian languages

Country of publisher: South Africa

Language of fulltext: English, Dutch, French, Afrikaans, German

Full-text formats available: PDF



Guy De Pauw

Gilles-Maurice de Schryver

Peter Waiganjo Wagacha


Blind peer review

Editorial Board

Instructions for authors

Time From Submission to Publication: 7 weeks


Abstract | Full Text

<p>Abstract: In this article we survey four different electronic bilingual dictionaries for the language pair Swahili–English. Aided by a data-driven morphological analyzer and part-of-speech tagger, we quantify the coverage of the dictionaries on large monolingual corpora of Swahili. In a second series of experiments, we investigate how applicable the dictionaries are as a tool in the development of a machine translation system, by evaluating bilingual coverage on the parallel SAWA corpus. At the same time we attempt to consolidate the dictionaries into a unified lexicographic database and compare the coverage to that of its composite parts.</p><p>Keywords: LEXICOGRAPHY, EVALUATION, MORPHOLOGY, LEMMATIZATION, PARALLEL CORPORA, MACHINE LEARNING, MACHINE TRANSLATION, SWAHILI (KISWAHILI), ENGLISH</p><p>Samenvatting: Een corpusgebaseerde evaluatie van vier bilinguale elek-tronische woordenboeken Swahili–Engels. In dit artikel evalueren we vier verschil-lende elektronische woordenboeken voor het talenpaar Swahili–Engels. Met behulp van automa-tische morfosyntactische analyse, kwantificeren we de dekking van de woordenboeken op basis van grote monolinguale corpora voor het Swahili. In een tweede reeks experimenten onderzoeken we de toepasbaarheid van de woordenboeken als hulpmiddel bij de ontwikkeling van automa-tische vertaalsystemen, door hun bilinguale dekking te meten op basis van het parallelle SAWA corpus. Tegelijkertijd proberen we de woordenboeken te integreren in een overkoepelende lexico-grafische databank en vergelijken we de dekking ervan met die van de samenstellende delen.</p><p>Sleutelwoorden: LEXICOGRAFIE, EVALUATIE, MORFOLOGIE, LEMMATISERING, PARALLELLE CORPORA, AUTOMATISCHE LEERTECHNIEKEN, AUTOMATISCH VERTA-LEN, SWAHILI (KISWAHILI), ENGELS</p>