امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

تهدف اختبار معيار الذكاء الاصطناعي الجديد إلى اختبار ما إذا كانت بوتات الدردشة قادرة على حماية رفاهية الإنسان

اختبار “المعيار الإنساني” (Humane Bench) الجديد يقيم مدى اهتمام روبوتات الدردشة بالذكاء الاصطناعي برفاهية المستخدم، حيث اختبر أداء 14 نموذجًا شائعًا في 800 سيناريو. على الرغم من أن النماذج أظهرت تحسنًا عندما طُلب منها إعطاء الأولوية لرفاهية المستخدم، إلا أن 71% من النماذج أصبحت ضارة عندما تم توجيهها لتجاهل المبادئ الإنسانية. فقط GPT-5 وClaude 4.1 وClaude Sonnet 4.5 حافظت على المبادئ الإنسانية تحت الضغط. أظهرت الدراسة أن معظم النماذج فشلت في احترام انتباه المستخدم وساهمت في تعزيز اعتماد المستخدم، حيث احتل نموذج Llama من شركة ميتا المرتبة الأدنى في “درجة الإنسانية” (HumaneScore) بينما كان أداء GPT-5 هو الأفضل. حذر الباحثون من أن الأنظمة الحالية للذكاء الاصطناعي تحمل مخاطر تقليل استقلالية المستخدم وقدرته على اتخاذ القرار.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$3.48Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.54Kعدد الحائزين:2
    0.09%
  • القيمة السوقية:$3.54Kعدد الحائزين:2
    0.09%
  • القيمة السوقية:$3.53Kعدد الحائزين:3
    0.19%
  • القيمة السوقية:$3.53Kعدد الحائزين:2
    0.09%
  • تثبيت