انطلقت قبل أيام قليلة بطولة كأس العالم 2018 لكرة القدم التي تستضيفها روسيا، وهي واحدة من أكثر الأحداث الرياضية انتشارًا في التاريخ كما أنها أكثر شعبية حتى من الألعاب الأولمبية، وبالتالي يعتبر أمر التنبؤ بالفائزين المحتملين من أكبر الاهتمامات.
تمكنت تقنيات التعلم الآلي من التنبؤ بما يمكن أن تؤول إليه الأحداث اعتماداً على بيانات وإحصائيات سابقة، وقد توقع الباحثون النتيجة بعد محاكاة بطولة كأس العالم بأكملها 100 ألف مرة.
فيما سبق كانت إحدى الطرق لقياس النتائج المحتملة هي الإطلاع على احتمالات شركات المراهنات. حيث تستخدم هذه الشركات إحصائيين محترفين لتحليل قواعد البيانات الشاملة للنتائج بطريقة تحدد احتمالات النتائج المختلفة لأي مباراة. وبهذه الطريقة تستطيع مكاتب المراهنات تقديم احتمالات حول جميع المباريات التي ستلعب في بطولة كأس العالم، بالإضافة إلى وجود احتمالات تخص الفائزين المحتملين.
فبعد الجمع بين كل الاحتمالات من شركات المراهنات المختلفة كان أفضل تقدير يقترح أن المرشح الأفضل للفوز ببطولة كأس العالم 2018 هي البرازيل بنسبة 16.6%، تليها ألمانيا بنسبة 12.8%، ثم إسبانيا بنسبة 12.5% حسبما ذكر تقرير مجلة MIT Technology review.
ولكن في السنوات الأخيرة طور الباحثون تقنيات التعلم الآلي التي لديها القدرة على التفوق على الأساليب الإحصائية التقليدي ة في التنبؤ. فما الذي تتوقعه هذه التقنيات الجديدة كنتيجة محتملة للفائز ببطولة كأس العالم 2018؟
الإجابة تأتي نتيجة عمل الباحث أندرياس غول وبعض زملائه في جامعة دورتموند التقنية في ألمانيا حيث استخدموا مزيجًا من تقنيات التعلم الآلي والإحصاءات التقليدية ليقوموا بإنشاء نموذج يُسمى الغابة العشوائية Random-Forest لتحديد الفريق الأوفر حظًا للفوز بالنسخة الـ 21 للمونديال، معتمدين في ذلك على محاكاة بطولة كأس العالم 100 ألف مرة.
الجدير بالذكر أن تقنية الغابة العشوائية ظهرت في السنوات الأخيرة كطريقة قوية وفعالة في تحليل مجموعات البيانات الكبيرة بالإضافة إلى تجنب بعض عوائق طرق معالجة البيانات الأخرى، مثل طريقة شجرة القرار Decision Tree التي يتم فيها حساب النتيجة في كل فرع بالرجوع إلى مجموعة من بيانات التدريب.
ومع ذلك تعاني طريقة شجرة القرار من مشكلة معروفة جيدًا، حيث أنه في المراحل الأخيرة من عملية التفرّع يمكن أن تصبح القرارات مشوهة بشدة من خلال بيانات التدريب المتفرقة والمعرّضة للتفاوت الكبير في هذا النوع من الحل، وهي مشكلة تُعرف باسم إفراط المطابقة Over-fitting.
لكن نموذج الغابة العشوائية يختلف عن ذلك.. فبدلاً من حساب النتيجة في كل فرع يقوم النموذج بحساب نتيجة عدة فروع عشوائية مع تكرار ذلك عدة مرات، في كل مرة مع مجموعة مختلفة من الفروع المختارة عشوائياً. فتكون النتيجة النهائية هي متوسط جميع أشجار القرار التي تم إنشائها عشوائياً.
يمتلك هذا الأسلوب الكثير من المزايا. حيث أنه لا يعاني من نفس مشكلة إفراط المطابقة Over-fitting التي تعاني منها أشجار القرار العادية، بالإضافة إلى أنه يكشف عن العوامل الأكثر أهمية في تحديد النتيجة النهائية. فإذا تضمنت شجرة قرارات معينة الكثير من المعاملات سيصبح من السهل رؤية أي من هذه المعاملات له التأثير الأكبر على النتيجة وأي منها له التأثير الأقل.
موضوعات ذات صلة بما تقرأ الآن:
واستخدم غرول وزملائه هذا الأسلوب لتصميم نموذج بطولة كأس العالم 2018 حيث صمموا نتائج كل مباراة من المرجح أن تلعبها الفرق واستخدموا هذه النتائج لبناء المسار الأكثر احتمالًا في البطولة.
بدأوا مع مجموعة واسعة من العوامل المحتملة التي قد تحدد النتيجة، وتشمل هذه العوامل الاقتصادية مثل الناتج المحلي الإجمالي وتعداد السكان، وترتيب الفيفا FIFA للفرق الوطنية، بالإضافة إلى خواص الفرق نفسها مثل متوسط أعمار اللاعبين، وعدد اللاعبين المحترفين في الفريق الذين لعبوا في دوري أبطال أوروبا، وما إلى ذلك. ومن المثير للاهتمام أن نموذج الغابة العشوائية يسمح لفريق البحث بتضمين محاولات تصنيف تجريبية أخرى مثل التصنيفات المستخدمة من قبل شركات المراهنات.
وبعد إضافة كل هذه المعلومات للنموذج تبين أن أكثر العوامل المؤثرة على النتيجة هي تصنيفات الفرق التي تم إنشاؤها بطرق أخرى سواء التي قدمتها شركات المراهنات أو الفيفا وغيرهم. وتشمل العوامل الهامة الأخرى إجمالي الناتج المحلي وعدد لاعبي دوري الأبطال في الفريق. وتشمل العوامل غير المهمة تعداد سكان البلد، وجنسية مدرب الفريق وما إلى ذلك.
تختلف التوقعات التي تم التوصل إليها من خلال هذه العملية عن غيرها من الطرق الهامة. وكبداية تختار طريقة الغابة العشوائية إسبانيا باعتبارها الفائز الأكثر احتمالًا بنسبة 17.8%.
ومع ذلك هناك عامل كبير في هذا التنبؤ وهو هيكل البطولة نفسها. فإذا تمكنت ألمانيا من تخطي مرحلة المجموعات من المنافسة فمن المرجح أن تتعرض لمواجهة قوية في دور الـ 16، وبسبب ذلك تحسب طريقة الغابة العشوائية فرص ألمانيا في الوصول إلى الدور ربع النهائي بنسبة 58%. على النقيض من ذلك فإنه من غير المحتمل أن تتعرض إسبانيا لمواجهة قوية في الدور الـ 16، وبالتالي فإن لديها فرصة بنسبة 73% للوصول إلى الدور ربع النهائي.
إذا وصل كلاهما إلى الدور الربع النهائي، فإن فرصتيهما متساوية في الفوز. ويقول فريق البحث:
“إسبانيا مفضلة قليلاً على ألمانيا، ويرجع ذلك إلى حقيقة أن ألمانيا تملك احتمال أكبر للمغادرة في دور الـ 16″.
ولكن هناك تطور إضافي. حيث تسمح عملية الأشجار العشوائية بمحاكاة الدورة بأكملها وهذا يؤدي إلى نتيجة مختلفة، فقد تم محاكاة البطولة بأكملها 100 ألف مرة.. وبناء عليه قال فريق البحث:
“وفقًا لدورة البطولة الأكثر احتمالاً، إذا نجحت ألمانيا في الوصول إلى الربع النهائي فإنه من المرجح فوز المنتخب الألماني بكأس العالم 2018 بدلاً من المنتخب الإسباني”.
وبسبب هذا العدد الضخم من التباديل في المباريات، فإن هذه الدورة لا تزال بعيدة الاحتمال. حيث وضع غول وزملائه الاحتمالات بنحو 1 إلى 100 ألف. لذا حسب هذا العمل، في بداية البطولة لإسبانيا أفضل فرص الفوز، لكن إذا نجحت ألمانيا في الوصول إلى الربع النهائي فإنها ستصبح في المرتبة الأولى.
التعلم الآلي يتنبأ بالفريق الفائز ببطولة كأس العالم 2018
السابق 1 من 6 التاليجدول يظهر الاحتمالات المتوقعة لوصول الفرق الـ 32 إلى المراحل المختلفة في بطولة كأس العالم لهذا العام 2018 ، بالاعتماد على 100ألف محاكاة للبطولة كاملة.
الاحتمالات المتوقعة في بطولة كأس العالم لهذا العام 2018 .