إبراهيم إبراهيم منهراوى

ASUجامعة العلوم التطبيقية الخاصة - الصفحة الرئيسيةكلية تكنولوجيا المعلوماتإبراهيم إبراهيم منهراوىرسالة الدكتوراة

رسالة الدكتوراة

تعلم الآلة وتطبيقاتها في تحليل علم البيانات الجينومي للطب الشخصي

عند بناء نموذج للتعلم الآلي في الحياة الواقعية، من النادر تقريبًا أن تكون جميع المتغيرات في مجموعة البيانات مفيدة لبناء نموذج. حيث تقلل إضافة المتغيرات الزائدة من قدرة النموذج وقد تقلل أيضًا من الدقة الإجمالية للمصنف. علاوة على ذلك، فإن إضافة المزيد والمزيد من المتغيرات إلى نموذج يزيد من التعقيد الكلي للنموذج.

ربما نواجه جميعًا هذه المشكلة المتمثلة في تحديد الميزات ذات الصلة من مجموعة من البيانات وإزالة الميزات غير ذات الصلة أو الأقل أهمية حيث لا تساهم كثيرًا في المتغير المستهدف من أجل تحقيق دقة أفضل لنموذجنا. وبذلك لجأنا الى اختيار الميزة.

يعد اختيار الميزة أحد اهم المفاهيم الأساسية في التعلم الآلي والتي تؤثر بشكل كبير على أداء النموذج المقترح. وتتمتع ميزات البيانات التي نستخدمها لتدريب نماذج تعلم الالة الخاصة بنا بتأثير كبير على الأداء الذي يمكنك تحقيقه. يمكن أن يؤثر عدد الميزات ذات عدم الصلة أو ذات الصلة جزئيًا سلبًا على أداء النموذج.

يجب أن يكون اختيار الميزات وتنظيف البيانات الخطوة الأولى والأكثر أهمية في تصميم نموذج المقترح.

في هذه الرسالة، سوف تكتشف تقنيات اختيار الميزات التي يمكنك استخدامها في التعلم الآلي.

حيث ان اختيار الميزة هو العملية التي تحدد فيها تلقائيًا أو يدويًا تلك الميزات التي تساهم بشكل أكبر في متغير التنبؤ أو الإخراج الذي تهتم به. يمكن أن يؤدي وجود ميزات غير ملائمة في بياناتك إلى تقليل دقة النماذج وجعل النموذج يتعلم بناءً على ميزات غير ذات صلة.

، ونحن نعتبر مجموعة اختيار الميزةfeature في تصنيف متعدد الطبقات من الطرق الأخرى. سيتم مقارنة الأداء بين خوارزميات التعلم الآلي المختلفة مثل مصنف الغابات العشوائية (Random Forest classifier)، الانحدار اللوجستي (Logistic Regression) ، شجرة القرار (Decision Tree) ، آلة ناقلات الدعم (Support Vector Machine) و السذاجة بايز (Naive Bayes) على مجموعات بيانات لسرطان الدم النخاعي الحاد AML تم الحصول عليها من المعهد القومي للسرطان (NCI) ، جامعة القاهرة. الهدف الرئيسي هو تقييم التصحيح في تصنيف البيانات المتعلقة بكفاءة وفعالية كل خوارزمية من حيث الدقة والكفاءة والحساسية والتحديد. النتائج التجريبية تحدد أن الانحدار اللوجستي (LR) يعطي دقة هائلة (92.30٪) مع أدنى معدل خطأ. تتأثر جميع التجارب داخل بيئة المحاكاة وتم التنفيذ باستخدام Python 3.7 لاستخراج البيانات.

يقترح نموذج اختيار الميزة الهجين الجديد المسمى نموذج RBARegulizer، والذي يستند إلى نوعين من تقنيات اختيار الميزات؛ اثنين من خوارزميات المرشحات RBAs

(ReliefF وMultiSURF) ميزة الترتيب إلى الجينات الأكثر أهمية وثلاث خوارزميات من regulizer (Lasso، ElasticNet، ElasticNetCV) للحد من الميزات الفرعية، وإزالة الضوضاء والميزات ذات عدم الصلة لتحسين أداء النموذج ودقة تصنيف السرطان الخاص ببيانات الميكرو أرى (microarray). لتقييم النموذج، تم تطبيق مختلف المصنفات الثلاثة على كلا من SVM، MLP، RF مع أربع بيانات من الميكرو ارى microarray عالية الأبعاد لأنواع من السرطانات المختلفة. النتائج التجريبية تظهر أن نموذجنا يتغلب على مشكلة الإفراط (overfitting) في تجهيز بيانات السرطان microarray. وعلاوة على ذلك، تظهر النتائج أن نموذج RBARegulizer مثالي في تحسين دقة تصنيف بيانات السرطان لبيانات ال microarray.

يقدم نموذج يسمى PSO-ENSVM وهو هجين بين اختيار الميزة لتحسين معاملات الشبكة المرنة Elastic Net) ) وأساليب التصنيف. قمنا باستخدام خوارزمية PSO تحسين سرب الذي هو أساسا الهدف من هذا البحث هو أن يكون الفضاء للحصول على شبه الأمثل، أو الأمثل أو حلول لتحسين المعاملات او ضبط المعاملات لكلا من RBFوSVM كمصنف. لتقييم النموذج، نستخدم سبع مجموعات بيانات microarray للأنواع مختلف من السرطان، وتم مقارنة نموذجنا المقترح PSO-ENSVM مع PSO-SVM نموذج يحسن مقياس فرط بارامتر ك RBF دون اختيار الميزة وSVM مع نواة RBF. تم عرض النتائج التجريبية وأظهرت أن قدرة نموذجنا على الحصول على مجموعة فرعية مثالية من الميزة أدت إلى زيادة أداء المعدلات لأنها كانت قادرة على تقليل عدد الميزات المحددة بشكل واضح ونتيجة لذلك، تظهر النتائج أن نموذج PSO-ENSVM متفوق مقارنة ب PSO-SVM وSVM مع نواة RBF.