أحدث أبحاث OpenAI: لماذا لا يزال GPT-5 وغيره من LLM يتحدثون هراء

أصدرت OpenAI أحدث أبحاثها، مشيرةً إلى أنه حتى لو كانت نماذج اللغة الكبيرة (LLM) مثل GPT-5 قد تقدمت بشكل كبير، فإن "أوهام الذكاء الاصطناعي" (Hallucinations) لا تزال تمثل مشكلة جوهرية، وقد لا يمكن القضاء عليها تمامًا. كشفت الفريق البحثي من خلال التجارب أن النموذج، عندما يُطلب منه الإجابة على أسئلة معينة، يكون واثقًا ولكنه يقدم إجابات خاطئة تمامًا، وقدموا مجموعة جديدة من "آليات التقييم" في الإصلاح، على أمل تقليل حالات "التخمينات" للنموذج.

اختبر الباحثون نماذج الذكاء الاصطناعي بمشاكل مختلفة، وكانت جميع الإجابات خاطئة

سأل الباحثون عن عنوان رسالة دكتوراه معينة من روبوت محادثة مستخدم على نطاق واسع، وكانت النتيجة أن الروبوت أعطى ثلاثة إجابات خاطئة متتالية. ثم سألوا عن تاريخ ميلاده، وأعطى الروبوت أيضًا ثلاثة تواريخ مختلفة، وكانت النتيجة خاطئة مرة أخرى.

تشير الأبحاث إلى أن نماذج الذكاء الاصطناعي، عندما تواجه "معلومات نادرة جدًا" في بعض البيانات، فإنها تقدم إجابات بثقة كبيرة، لكنها تكون خاطئة بشكل كبير.

آلية التدريب المسبق تتعلم فقط "سطح اللغة"، ولا تفهم صحة الحقائق

تشير الأبحاث إلى أن عملية التدريب المسبق للنموذج تتم من خلال كمية كبيرة من النصوص "لتوقع الكلمة التالية"، ولكن البيانات ليست معلمة بـ "صحيح أو خطأ". بعبارة أخرى، يتعلم النموذج فقط سطح اللغة، وليس دقة الحقائق.

ستختفي الأخطاء تدريجياً مع زيادة حجم النموذج للأشياء ذات النمط العالي مثل التهجئة أو الأقواس.

لكن مثل "عيد ميلاد شخص ما" هذه المعلومات ذات العشوائية العالية، لا يمكن استنتاجها من خلال نماذج اللغة، وبالتالي من السهل أن تولد الهلوسة.

يتم تشجيع نماذج الذكاء الاصطناعي على "تخمين عشوائي"، ويجب تعديل نماذج تقييم النماذج.

تُؤكد الدراسة أن طريقة التقييم تحتاج إلى تغييرات جذرية، حيث أن التركيز ليس مجرد النظر إلى "صحيح أو خطأ"، بل يجب معاقبة الأجوبة الخاطئة التي تأتي بثقة كبيرة، ومكافأة الذكاء الاصطناعي على "القول بصدق أنه لا يعرف". بعبارة أخرى، يجب أن يُعاقب الذكاء الاصطناعي إذا أعطى إجابات خاطئة أكثر من كونه يعترف بأنه لا يعرف.

من ناحية أخرى، إذا أجاب بـ "غير متأكد"، يجب أن يحصل على بعض النقاط بدلاً من أن تُحسب له صفر مباشرة. ويجب ألا يكون هذا مجرد إضافة بعض الاختبارات لإظهار الشكل، بل يجب أن يتم إلغاء نظام التقييم الحالي الذي يعتمد فقط على معدل الإجابة الصحيحة. إذا لم يتم تصحيح طريقة التقييم، سيستمر الذكاء الاصطناعي في التخمين العشوائي.

أظهرت الأبحاث في النهاية أنه لتقليل الهلوسة، يجب البدء من نظام التقييم، وإنشاء طريقة اختبار تشجع حقًا على "الحذر والصدق". بدلاً من المطالبة من الذكاء الاصطناعي "الإجابة بشكل صحيح في كل مرة"، من الأهم إنشاء قواعد لعبة تقبل "لا يعرف" من الذكاء الاصطناعي.

(2025 أحدث خمسة LLM الرئيسية تحليل كامل، الدفع، التطبيقات والأمان كما يمكنك فهمها جميعًا )

هذه المقالة OpenAI أحدث الأبحاث: لماذا لا يزال GPT-5 و LLM الآخرين يتحدثون هراء ظهرت لأول مرة في أخبار السلسلة ABMedia.

GPT3.23%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت