تسجيل الدخول

روان عبدالله جرار

رسالة الماجستير

​أدت الزيادة المستمرة في المحتوى النصي إلى مواجهة تحدي في استخراج معلومات المستهدفة من الوثائق الطويلة مثل الكتب بكفاءة وسرعة، مما أظهر حاجة واضحة إلى تقنيات متقدمة تساعد في تلخيص هذا الكم الهائل من البيانات بشكل فعّال ودقيق. إلا أن الأساليب حالياً غالباً ما تنتج ملخصات عامة تتجاهل الموضوعات المحددة أو احتياجات المستخدم، مما يحد من فعاليتها في التخصيص أو التلخيص بحسب موضوع محدد. في هذا الإطار، تقدم هذه الدراسة نموذجاً جديدة لتخليص النص التجريدي وفقاً لموضوع محدد  يُعرف ب TAATS، وهو نموذج تشفير وفك تشفير مزدوج، ومصمم لإنتاج ملخصات موجزة ومتسقة حول موضوع معين. يعتمد النموذج المقترح على Longformer Encoder–Decoder الذي يتميز بمعالجة النصوص الطويلة. في هذا النموذج، يتم إدخال النص الأصلي والموضوع المستهدف ليتم معالجتهما بالتوازي، ودمجهمها باستخدام آلية انتباه ذاتي متعددة الرؤوس، وذلك لتمكن النموذج من التركيز على الأجزاء ذات الصلة بالموضوع المستهدف خلال عملية التلخيص. كما تم استخدام تقنية Entity-Aware Auxiliary Loss لتعزيز دقة الملخص الناتج من خلال التركيز على الكيانات المهمة ذات الصلة بالموضوع. بالاضافة إلى ذلك، تساهم هذه الدراسة في تقديم مجموعة بيانات مرجعية جديدة باسم TOPSUM-Sci، تضمن 1000 نص تم جمعها من 495 ورقة بحثية في 33 مجال ضمن علوم الحاسوب، وتم تحديد خمسة مواضيع لكل نص باستخدام TF-IDF و  LDA، بالاضافة إلى انتاج خمسة ملخصات وفقاً لتلك موضوعات. تمت عملية تقييم النموذج المقترح ومقارنة ادائه بثلاث طرق لتلخيص النصوص، وأظهرت النتائج تفوق TAATS على الطرق الأخرى، حيث حقق النموذج المقترح تحسن بنسبة تصل إلى 43٪ في مقياس  ROUGE-L، و 37٪ في مقياس  ROUGE-2،  37٪ في مقياس  BLEURT، كما أظهرت تجارب التقييم الدلالي باستخدام المقاييس المعتمدة على نموذج BERT تفوق TAATS من حيث جودة الملخصات. ورغم أن الدراسة ركزت على النصوص العلمية، إلا أن المنهج المقترح قابل للتطبيق على مجالات أخرى تتطلب تلخيصاً بحسب موضوع مستهدف.​

اتصل بنا

أ. روان عبدالله جرار

آخر الأخبار