UDDIPOK: A reading comprehension based question answering dataset in Bangla language

Tanjim Taharat Aurpa; Md Shoaib Ahmed; Richita Khandakar Rifat; Md. Musfique Anwar; A.B.M. Shawkat Ali

Data in Brief (Apr 2023)

UDDIPOK: A reading comprehension based question answering dataset in Bangla language

Tanjim Taharat Aurpa,
Md Shoaib Ahmed,
Richita Khandakar Rifat,
Md. Musfique Anwar,
A.B.M. Shawkat Ali

Affiliations

Tanjim Taharat Aurpa: Department of Computer Science and Engineering, Jahangirnagar University, Savar, Dhaka, Bangladesh; Department of Computer Science and Engineering, International University of Business Agriculture and Technology, Bangladesh; Corresponding author at: Department of Computer Science and Engineering, Jahangirnagar University, Savar, Dhaka, Bangladesh.
Md Shoaib Ahmed: Brian Station 23 Ltd, Dhaka, Bangladesh; JU Data Mining Research Lab, Dhaka, Bangladesh
Richita Khandakar Rifat: Department of Computer Science and Engineering, Jahangirnagar University, Savar, Dhaka, Bangladesh
Md. Musfique Anwar: Department of Information and Computer Science, King Fahd University of Petroleum and Minerals, Saudi Arabia; JU Data Mining Research Lab, Dhaka, Bangladesh
A.B.M. Shawkat Ali: Central Queensland University, Melbourne, Australia; JU Data Mining Research Lab, Dhaka, Bangladesh

Journal volume & issue: Vol. 47
p. 108933

Abstract

Read online

The popularity of reading comprehension (RC) is increasing day-to-day in Bangla Natural Language Processing (NLP) research area, both in machine learning and deep learning techniques. However, there is no original dataset from various sources in the Bangla language except translated from foreign RC datasets, which contain abnormalities and mismatched translated data. In his paper, we present UDDIPOK, a novel wide-ranging, open-domain Bangla reading comprehension dataset. This dataset contains 270 reading passages, 3636 questions, and answers from diverse origins, for instance, textbooks, exam questions from middle and high schools, newspapers, etc. Furthermore, this dataset is formated in CSV, which contains three columns: passages, questions, and answers. As a result, data can be handled expeditiously and easily for any machine learning research.

Published in Data in Brief

ISSN: 2352-3409 (Online)
Publisher: Elsevier
Country of publisher: United States
LCC subjects: Medicine: Medicine (General): Computer applications to medicine. Medical informatics; Science: Science (General)
Website: http://www.journals.elsevier.com/data-in-brief/

About the journal

Abstract

Keywords