علوم اسلامی و انسانی دیجیتال

علوم اسلامی و انسانی دیجیتال

شباهت‌یابی معنایی تک زبانه و بین زبانی متون عربی با استفاده از یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان
1 دانشجوی دکتری هوش مصنوعی- دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران
2 استاد دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران
چکیده
شباهت‌یابی معنایی متون (STS) از زیرشاخه‌های مهم پردازش زبان طبیعی است که توجهات زیادی را در چند سال اخیر به خود معطوف کرده است. در شباهت‌یابی معنایی هدف محاسبه میزان شباهت معنایی بین دو سند متنی، پاراگراف یا جمله است که به دو صورت تک زبانه و بین زبانی مطرح است. در این مقاله محاسبه میزان شباهت معنایی بین دو جمله در زبان عربی و بین زبانی عربی- انگلیسی است که با توجه به عربی زبان بودن بسیاری از متون اسلامی، این پژوهش کاربردهای زیادی دارد. میزان شباهت معنایی بین دو جمله با استفاده از بردارهای معنایی دو جمله امکان پذیر است. در این تحقیق با استفاده از بردارهای از پیش آموزش داده شده بر روی متون عربی موجود در توییتر و ویکی‌پدیا با استفاده از دو روش CBOW و Skip-Gram که از معروف‌ترین روش‌های آموزش تعبیه کلمات می‌باشند بردارهای کلمات استخراج می‌گردد. همچنین از مدلهای مبتنی بر مبدلهای نظیر paraphrase-xlm-roberta نیز برای محاسبه شباهت معنایی بین زبانی عربی -انگلیسی مورد استفاده قرار گرفته است. برای ارزیابی مدل و آموزش آن با استفاده از داده‌های موجود در کنفرانس شباهت‌یابی معنایی سال 2017 که به‌صورت جفت جمله عربی و جفت جمله عربی -انگلیسی بودند اقدام به آموزش مدل شبکه عصبی عمیق با نام شبکه سیامی با استفاده از لایه LSTM نمودیم. استفاده از LSTM توانائی یادگیری وابستگی‌های بلندمدت در شبکه را امکان‌پذیر می‌سازد. شبکه‌های سیامی در عین سادگی نتایج قابل قبولی را از خود نشان می‌دهند و مدلهای مبتنی بر مبدلها نیز قابلیت یادگیری بین زبانی را دارند. در لایه آخر شبکه، با استفاده از شباهت کسینوسی بین بردارهای متعلق به دو جمله ورودی، میزان شباهت بین آن‌ها، به دست می‌آید. نتایج بیانگر آن است که با استفاده از روش پیشنهادی میزان همبستگی پیرسون 83.4 درصد برای جفت جمله عربی -عربی  و میزان همبستگی پیرسون 82 درصد  برای جفت جمله عربی-انگلیسی به دست می‌آید که از سایر روش‌های موجود عملکرد بهتری را از خود نشان می‌دهد.
 
کلیدواژه‌ها