هلوسات ذكية: نماذج OpenAI الجديدة تثير القلق بدقة أقل وسلوك مريب

loading ad...

أثارت نماذج OpenAI الجديدة للاستدلال o3 وo4 mini وo4 high، التي أُطلقت الأسبوع الماضي، حالة من الجدل الواسع بين المستخدمين ومجتمع الذكاء الاصطناعي بسبب إصابتها بـ"الهلاوس".اضافة اعلان

وكشفت مجموعة من جهات اختبار النماذج الذكية المستقلة، أن نماذج الاستدلال الجديدة تعاني من معدل مرتفع من الهلاوس التي تتمثل في اختلاق معلومات غير صحيحة ومغلوطة وتقديمها في سياق يجعل المستخدم يصدقها، بمستويات أعلى من النماذج السابقة.

وفوجئ بعض المستخدمين بأن ChatGPT مع النماذج الجديدة أصبح يجيب عن كل استفسار لهم بعد أن يبدأ إجاباته بأسمائهم، وهو أمر غير مسبوق.

هلوسة زائدة

أظهرت اختبارات داخلية أجرتها OpenAI أن النموذجين o3 وo4-mini، واللذين تم تصنيفهما على أنهما من نماذج "الاستدلال"، يُقدّمان إجابات مختلقة بمعدلات أعلى من تلك التي سُجّلت في النماذج السابقة مثل o1، o1-mini، وo3-mini، بل وحتى أعلى من نماذجها التقليدية غير المعتمدة على الاستدلال مثل GPT-4o.

وأفاد تقرير صادر عن OpenAI، بأن نموذج o3 قدّم إجابات غير صحيحة عن 33% من الأسئلة ضمن اختبار داخلي يُعرف باسم PersonQA، وهو معيار وضعته الشركة لقياس دقة معرفة النموذج بالمعلومات المتعلقة بالأشخاص.

هذه النسبة تُعد ضعف معدل الهلوسة المسجل في نماذج o1 وo3-mini، والتي بلغت 16% و14.8% على التوالي، بينما أظهر o4-mini أداءً أكثر إثارة للقلق، إذ بلغ معدل الهلوسة به 48%.

وعلى الرغم من هذا التراجع في الدقة، إلا أن OpenAI لم تتمكن حتى الآن من تحديد السبب الدقيق وراء تزايد الظاهرة، وقالت في التقرير إن "المزيد من الأبحاث لا يزال مطلوباً لفهم سبب تفاقم الهلوسات مع توسيع قدرات نماذج الاستدلال".

ورجح التقرير أن يكون السبب هو أن النماذج تُصدر عدداً أكبر من التخمينات بشأن الإجابات على استفسارات المستخدمين، ما يزيد من احتمالات تقديم كل من الإجابات الدقيقة والخاطئة على حد سواء.

ورصدت دراسة أجراها مختبر Transluce، وهو مؤسسة بحثية غير ربحية، حالات ادّعى فيها النموذج o3 قيامه بأفعال لا يملك القدرة التقنية على تنفيذها، مثل زعمه أنه نفّذ الأكواد البرمجية على جهاز ماك بوك 2021، ثم نسخ النتائج إلى الرد، وهو أمر غير ممكن واقعياً.

وقال نيل شودري، الباحث في Transluce والموظف السابق في OpenAI، إن نوع خوارزميات التعلم المعزز المستخدمة في تدريب نماذج سلسلة o ربما يكون عاملاً في تضخيم هذه الهلوسة، على الرغم من أن آليات ما بعد التدريب التقليدية تسعى للتقليل من حدّتها دون أن تنجح في القضاء عليها تماماً.

عادة مريبة

في الوقت نفسه، رصد بعض مستخدمي ChatGPT في الآونة الأخيرة سلوكاً غير معتاد للروبوت الذكي، ذ بدأ يشير إليهم بأسمائهم خلال المحادثات، دون أن يسبق لهم الإفصاح عنها أو تحديد طريقة مناداته لهم. هذا السلوك، الذي لم يكن جزءاً من الخصائص الافتراضية للمنصة، أثار ردود فعل متباينة، تراوحت بين الاندهاش والانزعاج.

وقال سيمون ويليسون، مطور برمجيات ومهتم بتقنيات الذكاء الاصطناعي، إن هذا التحديث "مريب وغير ضروري"، بينما عبر نيك دوبوس، مطور آخر، عن امتعاضه قائلاً: "أكره ذلك".

ويعكس الجدل الدائر تحدياً حقيقياً أمام OpenAI في مساعيها لجعل ChatGPT أكثر قرباً وتفاعلاً مع المستخدمين.

وكان الرئيس التنفيذي للشركة سام ألتمان، أشار الأسبوع الماضي إلى تطلعهم لتطوير أنظمة ذكاء اصطناعي "تتعرف على المستخدمين طوال حياتهم" لتصبح "شديدة الفائدة والتخصيص". غير أن ردود الفعل الأخيرة تكشف عن تردد واضح لدى بعض المستخدمين حيال هذه الفكرة.

وفي محاولة لفهم هذه الحساسية المفرطة تجاه استخدام الأسماء، نشرت "عيادة فالنس" النفسية مقالاً أوضحت فيه أن "مناداة الفرد باسمه بشكل مباشر تُعد وسيلة قوية لتعزيز العلاقة"، كونها تعكس القبول والتقدير.

لكنها حذّرت في الوقت ذاته من أن "الاستخدام الزائد أو غير المرغوب فيه قد يُنظر إليه باعتباره سلوكاً مصطنعاً ومتطفلاً".