نموذج o3 لا يرقى للتوقعات.. اختبارات الرياضيات تضع OpenAI في موقف محرج

رغم الحملة الترويجية الواسعة التي صاحبت إطلاق نموذج الذكاء الاصطناعي O3 من شركة OpenAI، أظهرت اختبارات مستقلة مؤخرًا أداءً أقل من التوقعات بكثير، ما فتح الباب أمام موجة من التساؤلات حول مدى شفافية الشركات التقنية في الإعلان عن قدرات نماذجها المتقدمة، وأعاد إلى الواجهة النقاش حول الفجوة بين البيانات التسويقية والواقع العملي.

نتائج مبالغ فيها من OpenAI

في ديسمبر الماضي أعلنت OpenAI أن نموذجها o3 تمكن من حل أكثر من 25% من مسائل اختبار FrontierMath، وهو أحد أصعب اختبارات الرياضيات الموجهة للنماذج الذكية، وجرى عرض هذا الأداء خلال بث مباشر بمشاركة الباحث مارك تشين الذي أكد أن النتائج جاءت بعد اختبارات داخلية باستخدام بنية حوسبية متقدمة.

الحقيقة خلف الأرقام المعلنة

ما بدا كإنجاز استثنائي سرعان ما انكشف بأنه لا يعكس الواقع الفعلي، فقد نشر معهد Epoch AI ، المسؤول عن تطوير اختبار FrontierMath ومقره في الولايات المتحدة، نتائج اختبارات جديدة أجريت على النسخة العامة من o3 ، أظهرت أن النموذج لم يتمكن من تجاوز نسبة 10% من الإجابات الصحيحة.

اختلاف النسخ والإعدادات

بحسب المعهد قد يعود هذا التفاوت إلى استخدام نسخة أقوى في اختبارات OpenAI مقارنة بتلك التي تم طرحها للمستخدمين.

وأشارت مؤسسة ARC Prize التي اختبرت o3 قبل إطلاقه رسميًا، إلى أن النسخة التي تلقتها كانت مختلفة تمامًا من حيث الإمكانيات، وهو ما أكدته أيضًا "ويندا تشو" من فريق OpenAI، موضحة أن النموذج الحالي صمم ليكون أكثر سرعة وكفاءة في الاستخدام اليومي، وهو ما قد يفسر تراجع الأداء في اختبارات المهارات العالية.

الشفافية تحت المجهر

هذه الواقعة ليست الأولى في عالم الذكاء الاصطناعي، فقد سبق أن وجهت انتقادات مماثلة إلى شركات كبرى مثل "ميتا" و"xAI" التابعة لإيلون ماسك بشأن نشر بيانات اختبارية لا تنطبق فعليًا على النسخ المتاحة للعامة.

مستقبل النموذج

مع استعداد OpenAI لإطلاق إصدار جديد يحمل اسم "o3-pro" تزداد أهمية التحقق من مصداقية الأرقام المعلنة، خصوصًا أن هذه النماذج أصبحت جزءًا أساسيًا من أدوات العمل والتعليم والتطوير، ويفترض أن تكون مبنية على معايير دقيقة يمكن الوثوق بها.