إيمان صالح الناجي

ASUجامعة العلوم التطبيقية الخاصة - الصفحة الرئيسيةكلية تكنولوجيا المعلوماتإيمان صالح الناجيرسالة الماجستير

رسالة الماجستير

في العقود الأخيرة، أصبح علم معالجة اللغات الطبيعية من أهم الموضوعات البحثية وأكثرها شيوعًا. ومع مرافقة الخوارزميات الخاصة بتعلّم الآلة بلغت هذه الأبحاث وتطبيقاتها درجات عالية من الفعالية، خاصة مع اللغات الطبيعية الدارجة مثل اللغة الإنجليزية. في المقابل، حصلت اللغة العربية على نصيبٍ جيّد من هذه الأبحاث في معالجة اللغات الطبيعية، لكن مازالت بعض التطبيقات الخاصة بهذه الأبحاث في اللغة العربية في عداد التطبيقات الصعبة. أحد هذه التطبيقات هو الترجمة الآلية، والذي يُعتبر من التطبيقات الصعبة بشكلٍ عام بمختلف اللغات، ولكن تزيد صعوبتها في حال تعلّق الأمر باللغة العربية.

في هذه الرسالة، تم اقتراح نموذج للترجمة الآلية من اللغة الإنجليزية إلى اللغة العربية. هذا النموذج يعتمد بشكل أساسي على أحد الخوارزميات المُطوّرة من خوارزمية شبكات التعلّم العميق، والتي أثبتت فاعليتها عند التعامل مع هذا النوع من البيانات ذات خاصية التسلسل والتزامن، مثل الجمل المقروءة أو المحكية، وهذه الخوارزمية هي التشفير الذاتي باستخدام الشبكة العصبية المتكررة. في هذا العمل، تم اقتراح نموذج التشفير الذاتي، والذي يحتوي على شبكتين من الشبكات العصبية المتكررة، بحيث تكون البيانات المدخلة عبارة عن جُمل باللغة الإنجليزية، والمخرجات هي ترجمتها إلى اللغة العربية.

تم اختيار مجموعتين من البيانات المعروفة والتي تحتوي على جمل باللغة الإنجليزية مترجمة إلى اللغة العربية، وذلك لتدريب النموذج المقترح، وتمت المقارنة بين نتائج هذا النموذج مع مترجم الجوجل. تم إجراء عدد من التجارب والتي تم فيها تغيير نوع الشبكة العصبية المتكررة، بحيث تم استخدام النوعين الرئيسين من هذه الشبكة، وهما وحدة الذاكرة الطويلة قصيرة المدى، والوحدة المتكررة ذات البوابات، والتي تحتوي كلٌّ منهما على طبقات إضافية في الشبكة العصبية والتي تعمل على تحسين الترجمة الناتجة خاصة للجمل الطويلة التي يزيد طولها عن عشر كلمات. تم كذلك إضافة تقنية الانتباه العام على النموذج وذلك لمقارنة وربط كل كلمة منتجة في الجملة العربية مع سابقاتها من الكلمات في الجملة الإنجليزية.

وتم التعديل على مرحلة ما قبل معالجة البيانات، بإضافة خطوة تعمل على إعادة ترتيب كلمات الجملة الإنجليزية المدخلة بما يتناسب مع التركيب النحوي للجملة العربية. وأخيرًا وليس آخرًا تم استخدام مقياسين لتقييم النتائج وهما (BLUE) و (ROUGE).

أظهرت النتائج في جميع التجارب التي أُجريت درجات للنموذج المقترح أعلى من ترجمة جوجل، وتم اقتراح عدد من الأعمال المُستقبلية في النهاية، لتطوير أداء النموذج وتحسين الترجمة الناتجة عنه.