JES: Journal of Engineering Sciences (Jan 2024)

Ten2Zero: A Balanced Audio Dataset to Teach Machine Learning عشرة لصفر: مجموعة بيانات صوتية متوازنة الأصناف للأرقام العربية المنطوقة

  • Ghassan Bati

DOI
https://doi.org/10.21608/jesaun.2023.231628.1254
Journal volume & issue
Vol. 52, no. 1
pp. 1 – 11

Abstract

Read online

Saudi is interested in artificial intelligence and machine learning. Governmental interest appears in several forms, most notably creating a generation that masters the skills of artificial intelligence and machine learning through the approval of the Saudi Ministry of Education to teach artificial intelligence, machine learning, and data science skills in public schools and universities. This interest makes it imperative for researchers to develop Arabic datasets for research and educational purposes, especially with the popularity of English sources and the absence of Arabic sources. This study attempts to fill this gap by creating a dataset for the Arabic spoken digits from ten to zero and analysing it using Orange, which requires no coding. The importance of the study is as follows: first Arabic work to establish a balanced audio dataset of spoken Arabic digits from ten to zero; the dataset contains audio files and the tabular data generated using deep learning from the spectrograms of the audio files; it is the first Arabic scientific work that uses traditional machine learning and deep learning models to create good-performing models for classifying spoken Arabic digits without coding, which enables researchers and those interested in various fields to develop machine learning applications to classify Arabic audio, especially in mobile phones or in microcontrollers, to stimulate IoT applications and Tiny machine learning. الملخص تهتم السعودية بالذكاء الاصطناعي وتعلم الآلة. ويظهر الاهتمام الحكومي في عدة أشكال أبرزها إنشاء جيل متقن لمهارات الذكاء الاصطناعي وتعلم الآلة من خلال إقرار وزارة التعليم السعودية لتدريس مهارات الذكاء الاصطناعي وتعلم الآلة وعلم البيانات في مدارس التعليم العام والجامعات. وهذا الاهتمام يحتم على الباحثين تطوير مجموعات بيانات عربية؛ للأغراض البحثية والتعليمية خاصة مع شهرة المصادر الإنجليزية، وشح المصادر العربية. تحاول هذه الدراسة ملء الفراغ من خلال إنشاء مجموعة بيانات عربية، وتحليلها باستخدام برنامج أورانج والذي لا يحتاج إلى برمجة. تكمن أهمية الدراسة في التالي: أول عمل علمي عربي محكم ينشئ ويحلل مجموعة بيانات صوتية متوازنة الأصناف لتصنيف الأرقام العربية المنطوقة من عشرة لصفر، وتتميز مجموعة البيانات باحتوائها على الملفات الصوتية المستخرجة من تسجيل الأرقام العربية المنطوقة، وكذلك احتوائها على الصور الطيفية لتصنيف الأرقام العربية الصوتية والمستخرجة من الملفات الصوتية، واحتوائها على البيانات المجدولة ذات الخصائص المولدة باستخدام التعلم العميق للأرقام العربية المنطوقة والمستخرجة من الصور الطيفية. يعد البحث أول بحث منشور باللغة العربية يستخدم نماذج تعلم الآلة التقليدية والتعلم العميق لإنشاء نماذج ذات أداء عال لتصنيف الأرقام العربية الصوتية من عشرة لصفر بدون برمجة، مما يمكن الباحثين والمهتمين من كافة المجالات من تطوير تطبيقات تعلم آلة لتصنيف الأصوات العربية خاصة في الجوالات أو في المتحكمات الدقيقة تفعيلاً لتطبيقات إنترنت الأشياء وتعلم الآلات الصغيرة.

Keywords