علوم اسلامی و انسانی دیجیتال

علوم اسلامی و انسانی دیجیتال

موتور پیراسته ساز هوشمند کلمات عربی نور

نوع مقاله : مقاله پژوهشی

نویسنده
مهندس برنامه‌نویس گروه پردازش هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی
چکیده
استمر به الگوریتمی گفته می‌شود که در پردازش زبان طبیعی (NLP) در تجزیه و تحلیل ریخت شناسی، برای استخراج و نشان دادن شکل اصلی یا میانوند کلمات استفاده می­شود. به عبارت دیگر، استمر با حذف پیشوندها، پسوندها و مصوت‌ها از افعال صرف شده و اسماء مشتق و سایر اشکال کلمه حاصل می‌شود. هدف یک استمر عربی این است که با حفظ هویت معنایی و عملکرد نحوی، هر کلمه را به شکل پایه آن تقلیل دهد، بنابراین فهرست‌بندی، جستجو و دسته‌بندی کارآمد مجموعه‌های بزرگ اسناد عربی را تسهیل می‌کند. این ابزار نقش حیاتی در بازیابی اطلاعات، طبقه بندی اسناد، ترجمه ماشینی، خلاصه سازی و سیستم های پاسخگویی به سوالات دارد. ویژگی منحصر به فرد استمر هوشمند کلمات عربی بهره‌گیری همزمان از متد قاعده‌ای (Rule-Based)، متد آماری (Data-driven) و متد یادگیری (Learning-Based) می‌باشد. بر این اساس، کارکرد این موتور در سطح قابل توجهی از سایر موتورهای استمر پیشی گرفته است. در این موتور از داده های عربی متون کهن و جدید به همراه تحلیل های صرفی هوشمند و همچنین تکنیک های پیراسته‌سازی مبتنی بر ساختارِ قاعده مند زبان عربی استفاده شده است و تلفیق این سه متد در جهت ابهام زدایی از کلماتی که مبتنی بر قواعد زبان عربی شکل سالمی ندارند، در کارآمدی آن بسیار موثر واقع شده است و همین امر سبب شده است برخی از چالش‌هایی را که سایر موتورهای استمر با آن مواجه شوند، این موتور پشت سر بگذارد. ضمن اینکه این موتور با استفاده از استم های انسانی که توسط متخصصان ارائه شده است، مقایسه و ارزیابی شده است که دقت آن در مقایسه با سایر استمرها از سطح کیفی بسیار بالایی برخودار است. از دیگر ویژگی های این موتور، امکان ارائه استم‌ها در سطوح مختلف می‌باشد که امکان بسیار ارزشمند و جدیدی است که بر اساس آن می‌توان نیازمندهای بسیاری از کاربران را پوشش داد.
کلیدواژه‌ها