علوم اسلامی و انسانی دیجیتال

علوم اسلامی و انسانی دیجیتال

سامانه خودکار طبقه‌بندی موضوعی آیات قرآن با استفاده از یادگیری ماشین و یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان
1 اﺳﺘﺎدﯾﺎر و ﻋﻀﻮ ﻫﯿﺌﺖ ﻋﻠﻤﯽ داﻧﺸﮕﺎه، ﻗﻢ، اﯾﺮان؛ (نویسنده مسئول)
2 دانشجوی کارشناسی مهندسی نرم‌افزار، دانشکده فنی مهندسی، دانشگاه آزاد اسلامی واحد تهران شمال، تهران، ایران؛
چکیده
طبقه‌بندی موضوعی آیات قرآن کریم به‌صورت دستی، فرآیندی زمان‌بر و پیچیده است؛ به‌ویژه با توجه به چندموضوعی بودن بسیاری از آیات، نیاز به روشی خودکار و کارآمد برای سازمان‌دهی محتوای قرآن بر اساس موضوعات، بیش از پیش احساس می‌شود. پرسش اصلی این پژوهش آن است که چگونه می‌توان با بهره‌گیری از فنون یادگیری ماشین (ML) و یادگیری عمیق (DL)، سامانه‌ای خودکار برای تعیین موضوع یا موضوعات هر آیه ارائه داد. روش تحقیق این مطالعه، توصیفی–تحلیلی است. ابتدا مفاهیم کلیدی و پیشینه مرتبط بررسی شده و سپس رویکردهای مختلف ML و DL در زمینه طبقه‌بندی موضوعی آیات تحلیل می‌گردد. یافته‌ها نشان می‌دهد که الگوریتم‌های کلاسیک مانند بیز ساده و ماشین بردار پشتیبان، نتایج قابل قبولی ارائه کرده‌اند؛ اما با توجه به چندبرچسبی بودن بیش از نیمی از آیات، استفاده از مدل‌های چندبرچسبی ضروری است. بهره‌گیری از شبکه‌های عصبی پیچشی (CNN) و ترنسفورمرها موجب افزایش چشمگیر دقت طبقه‌بندی شده و پژوهش‌های اخیر دقتی بالاتر از ۹۰٪ را گزارش کرده‌اند. این دستاوردها بیانگر توانمندی سامانه‌های خودکار به‌عنوان ابزار کمکی برای پژوهشگران علوم قرآنی است. با این حال، محدودیت‌هایی همچون وابستگی به داده‌های برچسب‌خورده و پایین بودن تفسیرپذیری مدل‌ها همچنان باقی است. در مجموع، ترکیب دانش علوم رایانه و علوم قرآنی در قالب سامانه‌ای خودکار برای طبقه‌بندی موضوعی آیات، می‌تواند روشی کارآمد و مکمل برای روش‌های سنتی تفسیری و فهرست‌نگاری فراهم آورد و مسیر جدیدی را برای پژوهش‌های قرآنی در عصر دیجیتال هموار سازد.
کلیدواژه‌ها

ا.م.ک. ایزاتی، م.س. موبارک، ن.س. هدا، ک. آدیویجایا (2018). «طبقه‌بندی چندبرچسبی موضوعات آیات قرآن در ترجمه انگلیسی با استفاده از بیز ساده درخت‌افزایشی». کنفرانس ICoICT، IEEE، صفحات 360–365.
اشیش واسوانی و دیگران (2017). «توجه همه چیز است». کنفرانس NeurIPS، دوره ۳۰، صفحات 5998–6008.
ایان گود‌فلو، یوشوا بنگیو، آرون کُرویل (2016). یادگیری عمیق. MIT Press.
تام میچل (1997). یادگیری ماشین. McGraw-Hill.
تورستن یوآخیمز (1998). «دسته‌بندی متنی با ماشین بردار پشتیبان». کنفرانس ECML، Springer، صفحات 137–142.
جسی رید، لورنزو مارتینو، خِسوس د. اُل‌موس، دیوید لئونگو (2015). «پیش‌بینی مقیاس‌پذیر برچسب‌های چندگانه». Pattern Recognition، دوره ۴۸، شماره ۶، صفحات 2096–2109.
جیاوی هان، میشلین کامبر، جیان پی. (2011). داده‌کاوی: مفاهیم و تکنیک‌ها. Morgan Kaufmann.
جیکوب دِولین، مینگ-وی چانگ، کنتون لی، کریستینا توتانوا (2019). «BERT: پیش‌آموزش ترنسفورمرهای دوطرفه عمیق برای درک زبان». کنفرانس NAACL-HLT، صفحات 4171–4186.
چاروی آگراوال، چنگ‌شیان ژای (2012). داده‌کاوی متون. Springer.
خلیل‌الله صبری (1389). طبقات آیات: طبقه‌بندی آیات قرآن کریم بر اساس موضوع در ۲۶ فصل (با ترجمه آیات به فارسی). تهران: انتشارات امیرکبیر.
دوی رولیاواتی، اندری اس. روزاس، خالد، ام. راتودی (2018). «رویکرد متن‌کاوی برای مدلسازی موضوعی پیکره قرآن». کنفرانس IMAN، ACM، صفحات 83–90.
ر.ا. پانِ، م.س. موبارک، ن.س. هدا، الف. آدیویجایا (2018). «طبقه‌بندی چندبرچسبی موضوعات آیات قرآن در ترجمه انگلیسی با استفاده از بیز چندجمله‌ای». کنفرانس ICoICT، IEEE، صفحات 354–359.
ساتریو آدی پرابوو، آدیویجایا، محمد شهرال موبارک، سعید ال فارابی، محمد زیدنی ناف، محمد یوسلان ابو بکر (2019). «پیاده‌سازی ماشین بردار پشتیبان در طبقه‌بندی چندبرچسبی آیات قرآن». مجله علوم کامپیوتر، دوره ۱۵، شماره ۱۲، صفحات 1752–1758.
سمیر م. الرحیلی، اریک اتول (2014). «اَنتولوژی‌های محاسباتی برای برچسب‌گذاری معنایی قرآن: مرور روش‌های پیشین». مجموعه مقالات کنفرانس LREC 2014.
سیوپیان جایا پوترا، تدی مانتورو، محمد نور گونوان (2017). «متن‌کاوی ترجمه اندونزیایی قرآن: مرور نظام‌مند». کنفرانس ICCED، IEEE، صفحات 1–5.
عبدالکریم م. العشقار (2023). «طبقه‌بندی آیات قرآن با استفاده از یادگیری عمیق». مجله بین‌المللی رایانه و سیستم‌های دیجیتال.
علی میراعرب، مرتضی محمدی استانی، فائزه سادات طباطبایی امیری، سمیه دهقانی (1402). «روش‌های خودکارسازی یادگیری هستی‌نگاشت‌ها در حوزه مفاهیم قرآنی». تحقیقات کتابداری و اطلاع‌رسانی دانشگاه فردوسی مشهد، دوره ۵۴، شماره ۲، صفحات 227–254.
علیو ر. یائوری، ر. عبدالکدیر، عزِرین عزمان، م. ا. عزمی مراد (2009). «استخراج آیات قرآن بر مبنای مفاهیم با استفاده از اونتولوژی OWL-DL». کنفرانس بین‌المللی فناوری‌های نوظهور، IEEE، صفحات 29–34.
کوین پی. مورفی (2012). یادگیری ماشین: چشم‌انداز احتمالاتی. MIT Press.
گریگوریوس تسوماکاس، یوآنیس کاتاس (2007). «طبقه‌بندی چندبرچسبی: مروری کلی». مجله بین‌المللی انبارداری و داده‌کاوی، دوره ۳، شماره ۳، صفحات 1–13.
مایسوم ح. پنجو (2014). استخراج آماری و نمایش تصویری موضوعات در پیکره قرآن. گزارش فنی، دانشگاه واترلو.
محمد الخورات (2015). «استخراج موضوعات از قرآن کریم با استفاده از مدل‌های مولدی». IJACSA، دوره ۶، شماره ۱۲، صفحات 288–294.
محمد بزرگ‌قمی‌زاده، بهروز مینایی (1398). «کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی». دوفصلنامه قرآن‌شناخت، سال ۳، شماره ۲، صفحات 89–102.
محمد شعیب، م. ندیم یاسین، الله ک. حکمت، م. عمران سعید، ملک سکندر ح. خیال (2009). «مدل WordNet رابطه‌ای برای جستجوی معنایی در قرآن کریم». کنفرانس بین‌المللی فناوری‌های نوظهور، IEEE، صفحات 29–34.
محمد عکور، ایزات المسعدی، ایاد العزام (2014). «MQVC: اندازه‌گیری شباهت آیات قرآن و کلاس‌بندی سوره‌ها با استفاده از n-گرم». WSEAS Transactions on Computers، دوره ۱۳، صفحات 485–491.
محمدحسین صالحی‌شهرودی، بهروز مینایی، امیررضا اشرفی (1392). «متن‌کاوی موضوعی رایانه‌ای قرآن کریم برای کشف ارتباطات معنایی میان آیات بر مبنای تفسیر المیزان». فصلنامه علمی پژوهشی قرآن‌شناخت، سال اول، شماره ۲، صفحات 133–150.
مصطفی کرمی، علیرضا طالب‌پور، فرزانه تاج‌آبادی، زینب حاجی‌محمدی (1401). «تشخیص احساسات از متن قرآن با استفاده از شبکه یادگیری عمیق RoBERTa پیشرفته». پژوهش‌های میان‌رشته‌ای قرآنیک، دوره ۲، شماره ۱، صفحات 1–14.
معضم احمد صدیقی، سید محمد فراز، سهیل عبدالستار (2013). «کشف ساختار موضوعی قرآن با استفاده از مدل‌های احتمالاتی موضوعی». مجموعه مقالات کنفرانس بین‌المللی دانشگاه طیبه در پیشرفت‌های فناوری اطلاعات برای قرآن و علوم آن (ICCIT)، صفحه 234–239، IEEE.
مهدی رحیمی‌بافقی، معصومه پورباقری (1393). خوشه‌بندی آیات قرآن. پایان‌نامه کارشناسی، دانشگاه علم و صنعت ایران.
مین-لینگ ژانگ، ژی-هوا ژو (2014). «مروری بر الگوریتم‌های یادگیری چندبرچسبی». IEEE TKDE، دوره ۲۶، شماره ۸، صفحات 1819–1837.
نورهن ح. عباس (2009). ابزار و وب‌سایت «جست‌وجو برای یک مفهوم» قرآن. رساله دکتری، دانشگاه لیدز.
یان لوکان، یوشوا بنگیو، جفری هینتون (2015). «یادگیری عمیق». Nature، دوره ۵۲۱، صفحات 436–444.
Abdelkareem M. Alashqar (2023). “A Classification of Quran Verses Using Deep Learning.” International Journal of Computing and Digital Systems (Early Access).
Ali Mirarab, Morteza Mohammadi Estani, Fa’ezeh S. Tabatabaei Amiri, and Somayeh Dehghani (2023). “Automated Ontology Learning Methods in Quranic Concept Domains: A Systematic Review.” University of Ferdowsi Mashhad Journal of Library and Information Science, 54(2): 227–254.
Aliyu R. Yauri, R. Abdul Kadir, Azreen Azman, and M. A. Azmi Murad (2009). “Quranic Verse Extraction Based on Concepts Using an OWL-DL Ontology.” In 2009 International Conference on Emerging Technologies, 29–34. IEEE.
Ashish Vaswani et al. (2017). “Attention Is All You Need.” In Advances in Neural Information Processing Systems, 30: 5998–6008.
Charu C. Aggarwal and ChengXiang Zhai, eds. (2012). Mining Text Data. Springer.
Dwi Rolliawati, Indri S. Rozas, Khalid, and M. Ratodi (2018). “Text Mining Approach for Topic Modeling of the Corpus Al-Qur’an in Indonesian Translation.” In Proceedings of the 2018 International Conference on Islamic Applications in Computer Science and Technologies (IMAN), 83–90. ACM.
Grigorios Tsoumakas and Ioannis Katakis (2007). “Multi-Label Classification: An Overview.” International Journal of Data Warehousing and Mining, 3(3): 1–13.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” In Proceedings of NAACL-HLT, 4171–4186.
Jesse Read, Lorenzo Martino, Jesús D. Olmos, and David Luengo (2015). “Scalable Multi-Output Label Prediction: From Classifier Chains to Classifier Trellises.” Pattern Recognition, 48(6): 2096–2109.
Jiawei Han, Micheline Kamber, and Jian Pei (2011). Data Mining: Concepts and Techniques, 3rd ed. Morgan Kaufmann (Elsevier).
Kevin P. Murphy (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
Khalilullah Sabri (2010). Tabaqat al-Ayat: Thematic Classification of the Verses of the Holy Quran in 26 Chapters (with Persian Translation of the Verses). Tehran: Amir Kabir Publications.
M. K. Izzaty, M. S. Mubarok, N. S. Huda, and K. Adiwijaya (2018). “A Multi-Label Classification of Topics of Quranic Verses in English Translation Using Tree-Augmented Naïve Bayes.” In Proceedings of the 2018 International Conference on Information and Communication Technology (ICoICT), 360–365. IEEE.
Maysum H. Panju (2014). Statistical Extraction and Visualization of Topics in the Quran Corpus. Technical Report, University of Waterloo.
Mehdi Rahimibafghi and Masoumeh Pourbagheri (2014). Clustering of Quranic Verses. B.Sc. thesis, Computer Engineering Department, Iran University of Science and Technology.
Min-Ling Zhang and Zhi-Hua Zhou (2014). “A Review on Multi-Label Learning Algorithms.” IEEE Transactions on Knowledge and Data Engineering, 26(8): 1819–1837.
Mohammad Alhawarat (2015). “Extracting Topics from the Holy Quran Using Generative Models.” International Journal of Advanced Computer Science and Applications (IJACSA), 6(12): 288–294.
Mohammad Bozorg-Ghamizadeh and Behrooz Minaei (2019). “Discovering Conceptual Relations of Quranic Verses within Tafsirs Using Data Mining Techniques.” Quran-Shenakht Quarterly, 3(2): 89–102.
Mohammad Hossein Salehi-Shahroudi, Behrooz Minaei, and Amirreza Ashrafi (2013). “Computer-Based Thematic Text Mining of the Holy Quran to Discover Semantic Connections among Verses, Based on Tafsir al-Mizan.” Quran-Shenakht Quarterly, vol. 1, no. 2 (Autumn–Winter): 133–150.
Mohammed Akour, Izzat Alsmadi, and Iyad Alazzam (2014). “MQVC: Measuring Quranic Verses Similarity and Sura Classification Using N-Gram.” WSEAS Transactions on Computers, 13: 485–491.
Mostafa Karami, Alireza Talebpour, Farzaneh Tajabadi, and Zeinab Hajimohammadi (2023). “Sentiment Analysis of Quranic Text Using Advanced RoBERTa Deep Learning.” Journal of Interdisciplinary Quranic Studies, 2(1): 1–14.
Muazzam Ahmed Siddiqui, Syed Muhammad Faraz, and Sohail Abdul Sattar (2013). “Discovering the Thematic Structure of the Quran Using Probabilistic Topic Models.” In Proceedings of the Taibah University International Conference on Advances in Information Technology for the Holy Quran and Its Sciences (ICCIT), 234–239. IEEE.
Muhammad Huzaifa Bashir, Aqil M. Azmi, Haq Nawaz, Wajdi Zaghouani, Mona Diab, Ala Al-Fuqaha, and Junaid Qadir (2023). “Arabic Natural Language Processing for Qur’anic Research: A Systematic Review.” Artificial Intelligence Review, 56: 1261–1302.
Muhammad Shoaib, M. Nadeem Yasin, Ullah K. Hikmat, M. Imran Saeed, and Malik Sikandar H. Khiyal (2009). “Relational WordNet Model for Semantic Search in the Holy Quran.” In 2009 International Conference on Emerging Technologies, 29–34. IEEE.
Noorhan H. Abbas (2009). Qur’an ‘Search for a Concept’ Tool and Website. PhD diss., School of Computing, University of Leeds, UK.
R. A. Pane, M. S. Mubarok, N. S. Huda, and A. Adiwijaya (2018). “A Multi-Label Classification of Topics of Quranic Verses in English Translation Using Multinomial Naïve Bayes.” In Proceedings of the 2018 International Conference on Information and Communication Technology (ICoICT), 354–359. IEEE.
Sameer M. Alrehaili and Eric Atwell (2014). “Computational Ontologies for Semantic Tagging of the Quran: A Survey of Past Approaches.” In Proceedings of LREC 2014 (9th Language Resources and Evaluation Conference). European Language Resources Association.
Satrio Adi Prabowo, Adiwijaya, Mohamad Syahrul Mubarok, Said Al Faraby, Muhammad Zidny Naf, and Muhammad Yuslan Abu Bakar (2019). “An Implementation of Support Vector Machine on the Multi-Label Classification of English-Translated Quranic Verses.” Journal of Computer Science, 15(12): 1752–1758.
Syopyan Jaya Putra, Teddy Mantoro, and Muhamad Nur Gunawan (2017). “Text Mining for the Indonesian Translation of the Quran: A Systematic Review.” In 2017 International Conference on Computing, Engineering, and Design (ICCED), 1–5. IEEE.
Thorsten Joachims (1998). “Text Categorization with Support Vector Machines: Learning with Many Relevant Features.” In Proceedings of the 10th European Conference on Machine Learning (ECML), LNCS 1398, 137–142. Springer.
Tom M. Mitchell (1997). Machine Learning. McGraw-Hill.
Yann LeCun, Yoshua Bengio, and Geoffrey Hinton (2015). “Deep Learning.” Nature, 521: 436–444.