Digital Islamic Humanities

Digital Islamic Humanities

Automated Thematic Classification System for Qur’anic Verses Using Machine Learning and Deep Learning

Document Type : Original Article

Authors
1 . Assistant Professor and Faculty Member, University of Qom, Iran; (corresponding author)
2 Undergraduate Student of Software Engineering, Faculty of Engineering, Islamic Azad University, North Tehran Branch, Tehran, Iran.
3 Undergraduate Student in Software Engineering, Faculty of Engineering, Islamic Azad University, North Tehran Branch, Tehran, Iran.
Abstract
Manual thematic classification of Qur’anic verses is a time-consuming and complex process. Given that many verses address multiple themes simultaneously, the need for an efficient automated method to organize Qur’anic content based on thematic categories has become increasingly evident. The primary research question of this study is how machine learning (ML) and deep learning (DL) techniques can be utilized to develop an automated system capable of determining the theme or themes of each verse. This study adopts a descriptive-analytical research method. First, key concepts and relevant literature are examined, followed by an analysis of various ML and DL approaches applied to thematic classification of Qur’anic verses. The findings indicate that classical algorithms such as Naïve Bayes and Support Vector Machines have produced acceptable results. However, given that more than half of the verses require multi-label classification, the use of multi-label models is essential. The application of Convolutional Neural Networks (CNNs) and Transformer-based models has significantly improved classification accuracy, with recent studies reporting accuracy rates exceeding 90%. These findings demonstrate the effectiveness of automated systems as supportive tools for researchers in Qur’anic studies. Nevertheless, limitations such as reliance on labeled datasets and limited model interpretability remain significant challenges. Overall, integrating computer science methodologies with Qur’anic studies through automated thematic classification systems provides an effective complementary approach to traditional exegetical and indexing methods, opening new avenues for Qur’anic research in the digital age.
Keywords

ا.م.ک. ایزاتی، م.س. موبارک، ن.س. هدا، ک. آدیویجایا (2018). «طبقه‌بندی چندبرچسبی موضوعات آیات قرآن در ترجمه انگلیسی با استفاده از بیز ساده درخت‌افزایشی». کنفرانس ICoICT، IEEE، صفحات 360–365.
اشیش واسوانی و دیگران (2017). «توجه همه چیز است». کنفرانس NeurIPS، دوره ۳۰، صفحات 5998–6008.
ایان گود‌فلو، یوشوا بنگیو، آرون کُرویل (2016). یادگیری عمیق. MIT Press.
تام میچل (1997). یادگیری ماشین. McGraw-Hill.
تورستن یوآخیمز (1998). «دسته‌بندی متنی با ماشین بردار پشتیبان». کنفرانس ECML، Springer، صفحات 137–142.
جسی رید، لورنزو مارتینو، خِسوس د. اُل‌موس، دیوید لئونگو (2015). «پیش‌بینی مقیاس‌پذیر برچسب‌های چندگانه». Pattern Recognition، دوره ۴۸، شماره ۶، صفحات 2096–2109.
جیاوی هان، میشلین کامبر، جیان پی. (2011). داده‌کاوی: مفاهیم و تکنیک‌ها. Morgan Kaufmann.
جیکوب دِولین، مینگ-وی چانگ، کنتون لی، کریستینا توتانوا (2019). «BERT: پیش‌آموزش ترنسفورمرهای دوطرفه عمیق برای درک زبان». کنفرانس NAACL-HLT، صفحات 4171–4186.
چاروی آگراوال، چنگ‌شیان ژای (2012). داده‌کاوی متون. Springer.
خلیل‌الله صبری (1389). طبقات آیات: طبقه‌بندی آیات قرآن کریم بر اساس موضوع در ۲۶ فصل (با ترجمه آیات به فارسی). تهران: انتشارات امیرکبیر.
دوی رولیاواتی، اندری اس. روزاس، خالد، ام. راتودی (2018). «رویکرد متن‌کاوی برای مدلسازی موضوعی پیکره قرآن». کنفرانس IMAN، ACM، صفحات 83–90.
ر.ا. پانِ، م.س. موبارک، ن.س. هدا، الف. آدیویجایا (2018). «طبقه‌بندی چندبرچسبی موضوعات آیات قرآن در ترجمه انگلیسی با استفاده از بیز چندجمله‌ای». کنفرانس ICoICT، IEEE، صفحات 354–359.
ساتریو آدی پرابوو، آدیویجایا، محمد شهرال موبارک، سعید ال فارابی، محمد زیدنی ناف، محمد یوسلان ابو بکر (2019). «پیاده‌سازی ماشین بردار پشتیبان در طبقه‌بندی چندبرچسبی آیات قرآن». مجله علوم کامپیوتر، دوره ۱۵، شماره ۱۲، صفحات 1752–1758.
سمیر م. الرحیلی، اریک اتول (2014). «اَنتولوژی‌های محاسباتی برای برچسب‌گذاری معنایی قرآن: مرور روش‌های پیشین». مجموعه مقالات کنفرانس LREC 2014.
سیوپیان جایا پوترا، تدی مانتورو، محمد نور گونوان (2017). «متن‌کاوی ترجمه اندونزیایی قرآن: مرور نظام‌مند». کنفرانس ICCED، IEEE، صفحات 1–5.
عبدالکریم م. العشقار (2023). «طبقه‌بندی آیات قرآن با استفاده از یادگیری عمیق». مجله بین‌المللی رایانه و سیستم‌های دیجیتال.
علی میراعرب، مرتضی محمدی استانی، فائزه سادات طباطبایی امیری، سمیه دهقانی (1402). «روش‌های خودکارسازی یادگیری هستی‌نگاشت‌ها در حوزه مفاهیم قرآنی». تحقیقات کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد، دوره ۵۴، شماره ۲، صفحات 227–254.
علیو ر. یائوری، ر. عبدالکدیر، عزِرین عزمان، م. ا. عزمی مراد (2009). «استخراج آیات قرآن بر مبنای مفاهیم با استفاده از اونتولوژی OWL-DL». کنفرانس بین‌المللی فناوری‌های نوظهور، IEEE، صفحات 29–34.
کوین پی. مورفی (2012). یادگیری ماشین: چشم‌انداز احتمالاتی. MIT Press.
گریگوریوس تسوماکاس، یوآنیس کاتاس (2007). «طبقه‌بندی چندبرچسبی: مروری کلی». مجله بین‌المللی انبارداری و داده‌کاوی، دوره ۳، شماره ۳، صفحات 1–13.
مایسوم ح. پنجو (2014). استخراج آماری و نمایش تصویری موضوعات در پیکره قرآن. گزارش فنی، دانشگاه واترلو.
محمد الخورات (2015). «استخراج موضوعات از قرآن کریم با استفاده از مدل‌های مولدی». IJACSA، دوره ۶، شماره ۱۲، صفحات 288–294.
محمد بزرگ‌قمی‌زاده، بهروز مینایی (1398). «کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی». دوفصلنامه قرآن‌شناخت، سال ۳، شماره ۲، صفحات 89–102.
محمد شعیب، م. ندیم یاسین، الله ک. حکمت، م. عمران سعید، ملک سکندر ح. خیال (2009). «مدل WordNet رابطه‌ای برای جستجوی معنایی در قرآن کریم». کنفرانس بین‌المللی فناوری‌های نوظهور، IEEE، صفحات 29–34.
محمد عکور، ایزات المسعدی، ایاد العزام (2014). «MQVC: اندازه‌گیری شباهت آیات قرآن و کلاس‌بندی سوره‌ها با استفاده از n-گرم». WSEAS Transactions on Computers، دوره ۱۳، صفحات 485–491.
محمدحسین صالحی‌شهرودی، بهروز مینایی، امیررضا اشرفی (1392). «متن‌کاوی موضوعی رایانه‌ای قرآن کریم برای کشف ارتباطات معنایی میان آیات بر مبنای تفسیر المیزان». فصلنامه علمی پژوهشی قرآن‌شناخت، سال اول، شماره ۲، صفحات 133–150.
مصطفی کرمی، علیرضا طالب‌پور، فرزانه تاج‌آبادی، زینب حاجی‌محمدی (1401). «تشخیص احساسات از متن قرآن با استفاده از شبکه یادگیری عمیق RoBERTa پیشرفته». پژوهش‌های میان‌رشته‌ای قرآنیک، دوره ۲، شماره ۱، صفحات 1–14.
معضم احمد صدیقی، سید محمد فراز، سهیل عبدالستار (2013). «کشف ساختار موضوعی قرآن با استفاده از مدل‌های احتمالاتی موضوعی». مجموعه مقالات کنفرانس بین‌المللی دانشگاه طیبه در پیشرفت‌های فناوری اطلاعات برای قرآن و علوم آن (ICCIT)، صفحه 234–239، IEEE.
مهدی رحیمی‌بافقی، معصومه پورباقری (1393). خوشه‌بندی آیات قرآن. پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران.
مین-لینگ ژانگ، ژی-هوا ژو (2014). «مروری بر الگوریتم‌های یادگیری چندبرچسبی». IEEE TKDE، دوره ۲۶، شماره ۸، صفحات 1819–1837.
نورهن ح. عباس (2009). ابزار و وب‌سایت «جست‌وجو برای یک مفهوم» قرآن. رساله دکتری، دانشگاه لیدز.
یان لوکان، یوشوا بنگیو، جفری هینتون (2015). «یادگیری عمیق». Nature، دوره ۵۲۱، صفحات 436–444.
Abdelkareem M. Alashqar (2023). “A Classification of Quran Verses Using Deep Learning.” International Journal of Computing and Digital Systems (Early Access).
Ali Mirarab, Morteza Mohammadi Estani, Fa’ezeh S. Tabatabaei Amiri, and Somayeh Dehghani (2023). “Automated Ontology Learning Methods in Quranic Concept Domains: A Systematic Review.” University of Ferdowsi Mashhad Journal of Library and Information Science, 54(2): 227–254.
Aliyu R. Yauri, R. Abdul Kadir, Azreen Azman, and M. A. Azmi Murad (2009). “Quranic Verse Extraction Based on Concepts Using an OWL-DL Ontology.” In 2009 International Conference on Emerging Technologies, 29–34. IEEE.
Ashish Vaswani et al. (2017). “Attention Is All You Need.” In Advances in Neural Information Processing Systems, 30: 5998–6008.
Charu C. Aggarwal and ChengXiang Zhai, eds. (2012). Mining Text Data. Springer.
Dwi Rolliawati, Indri S. Rozas, Khalid, and M. Ratodi (2018). “Text Mining Approach for Topic Modeling of the Corpus Al-Qur’an in Indonesian Translation.” In Proceedings of the 2018 International Conference on Islamic Applications in Computer Science and Technologies (IMAN), 83–90. ACM.
Grigorios Tsoumakas and Ioannis Katakis (2007). “Multi-Label Classification: An Overview.” International Journal of Data Warehousing and Mining, 3(3): 1–13.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” In Proceedings of NAACL-HLT, 4171–4186.
Jesse Read, Lorenzo Martino, Jesús D. Olmos, and David Luengo (2015). “Scalable Multi-Output Label Prediction: From Classifier Chains to Classifier Trellises.” Pattern Recognition, 48(6): 2096–2109.
Jiawei Han, Micheline Kamber, and Jian Pei (2011). Data Mining: Concepts and Techniques, 3rd ed. Morgan Kaufmann (Elsevier).
Kevin P. Murphy (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
Khalilullah Sabri (2010). Tabaqat al-Ayat: Thematic Classification of the Verses of the Holy Quran in 26 Chapters (with Persian Translation of the Verses). Tehran: Amir Kabir Publications.
M. K. Izzaty, M. S. Mubarok, N. S. Huda, and K. Adiwijaya (2018). “A Multi-Label Classification of Topics of Quranic Verses in English Translation Using Tree-Augmented Naïve Bayes.” In Proceedings of the 2018 International Conference on Information and Communication Technology (ICoICT), 360–365. IEEE.
Maysum H. Panju (2014). Statistical Extraction and Visualization of Topics in the Quran Corpus. Technical Report, University of Waterloo.
Mehdi Rahimibafghi and Masoumeh Pourbagheri (2014). Clustering of Quranic Verses. B.Sc. thesis, Computer Engineering Department, Iran University of Science and Technology.
Min-Ling Zhang and Zhi-Hua Zhou (2014). “A Review on Multi-Label Learning Algorithms.” IEEE Transactions on Knowledge and Data Engineering, 26(8): 1819–1837.
Mohammad Alhawarat (2015). “Extracting Topics from the Holy Quran Using Generative Models.” International Journal of Advanced Computer Science and Applications (IJACSA), 6(12): 288–294.
Mohammad Bozorg-Ghamizadeh and Behrooz Minaei (2019). “Discovering Conceptual Relations of Quranic Verses within Tafsirs Using Data Mining Techniques.” Quran-Shenakht Quarterly, 3(2): 89–102.
Mohammad Hossein Salehi-Shahroudi, Behrooz Minaei, and Amirreza Ashrafi (2013). “Computer-Based Thematic Text Mining of the Holy Quran to Discover Semantic Connections among Verses, Based on Tafsir al-Mizan.” Quran-Shenakht Quarterly, vol. 1, no. 2 (Autumn–Winter): 133–150.
Mohammed Akour, Izzat Alsmadi, and Iyad Alazzam (2014). “MQVC: Measuring Quranic Verses Similarity and Sura Classification Using N-Gram.” WSEAS Transactions on Computers, 13: 485–491.
Mostafa Karami, Alireza Talebpour, Farzaneh Tajabadi, and Zeinab Hajimohammadi (2023). “Sentiment Analysis of Quranic Text Using Advanced RoBERTa Deep Learning.” Journal of Interdisciplinary Quranic Studies, 2(1): 1–14.
Muazzam Ahmed Siddiqui, Syed Muhammad Faraz, and Sohail Abdul Sattar (2013). “Discovering the Thematic Structure of the Quran Using Probabilistic Topic Models.” In Proceedings of the Taibah University International Conference on Advances in Information Technology for the Holy Quran and Its Sciences (ICCIT), 234–239. IEEE.
Muhammad Huzaifa Bashir, Aqil M. Azmi, Haq Nawaz, Wajdi Zaghouani, Mona Diab, Ala Al-Fuqaha, and Junaid Qadir (2023). “Arabic Natural Language Processing for Qur’anic Research: A Systematic Review.” Artificial Intelligence Review, 56: 1261–1302.
Muhammad Shoaib, M. Nadeem Yasin, Ullah K. Hikmat, M. Imran Saeed, and Malik Sikandar H. Khiyal (2009). “Relational WordNet Model for Semantic Search in the Holy Quran.” In 2009 International Conference on Emerging Technologies, 29–34. IEEE.
Noorhan H. Abbas (2009). Qur’an ‘Search for a Concept’ Tool and Website. PhD diss., School of Computing, University of Leeds, UK.
R. A. Pane, M. S. Mubarok, N. S. Huda, and A. Adiwijaya (2018). “A Multi-Label Classification of Topics of Quranic Verses in English Translation Using Multinomial Naïve Bayes.” In Proceedings of the 2018 International Conference on Information and Communication Technology (ICoICT), 354–359. IEEE.
Sameer M. Alrehaili and Eric Atwell (2014). “Computational Ontologies for Semantic Tagging of the Quran: A Survey of Past Approaches.” In Proceedings of LREC 2014 (9th Language Resources and Evaluation Conference). European Language Resources Association.
Satrio Adi Prabowo, Adiwijaya, Mohamad Syahrul Mubarok, Said Al Faraby, Muhammad Zidny Naf, and Muhammad Yuslan Abu Bakar (2019). “An Implementation of Support Vector Machine on the Multi-Label Classification of English-Translated Quranic Verses.” Journal of Computer Science, 15(12): 1752–1758.
Syopyan Jaya Putra, Teddy Mantoro, and Muhamad Nur Gunawan (2017). “Text Mining for the Indonesian Translation of the Quran: A Systematic Review.” In 2017 International Conference on Computing, Engineering, and Design (ICCED), 1–5. IEEE.
Thorsten Joachims (1998). “Text Categorization with Support Vector Machines: Learning with Many Relevant Features.” In Proceedings of the 10th European Conference on Machine Learning (ECML), LNCS 1398, 137–142. Springer.
Tom M. Mitchell (1997). Machine Learning. McGraw-Hill.
Yann LeCun, Yoshua Bengio, and Geoffrey Hinton (2015). “Deep Learning.” Nature, 521: 436–444.