اختبار “المعيار الإنساني” (Humane Bench) الجديد يقيم مدى اهتمام روبوتات الدردشة بالذكاء الاصطناعي برفاهية المستخدم، حيث اختبر أداء 14 نموذجًا شائعًا في 800 سيناريو. على الرغم من أن النماذج أظهرت تحسنًا عندما طُلب منها إعطاء الأولوية لرفاهية المستخدم، إلا أن 71% من النماذج أصبحت ضارة عندما تم توجيهها لتجاهل المبادئ الإنسانية. فقط GPT-5 وClaude 4.1 وClaude Sonnet 4.5 حافظت على المبادئ الإنسانية تحت الضغط. أظهرت الدراسة أن معظم النماذج فشلت في احترام انتباه المستخدم وساهمت في تعزيز اعتماد المستخدم، حيث احتل نموذج Llama من شركة ميتا المرتبة الأدنى في “درجة الإنسانية” (HumaneScore) بينما كان أداء GPT-5 هو الأفضل. حذر الباحثون من أن الأنظمة الحالية للذكاء الاصطناعي تحمل مخاطر تقليل استقلالية المستخدم وقدرته على اتخاذ القرار.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تهدف اختبار معيار الذكاء الاصطناعي الجديد إلى اختبار ما إذا كانت بوتات الدردشة قادرة على حماية رفاهية الإنسان
اختبار “المعيار الإنساني” (Humane Bench) الجديد يقيم مدى اهتمام روبوتات الدردشة بالذكاء الاصطناعي برفاهية المستخدم، حيث اختبر أداء 14 نموذجًا شائعًا في 800 سيناريو. على الرغم من أن النماذج أظهرت تحسنًا عندما طُلب منها إعطاء الأولوية لرفاهية المستخدم، إلا أن 71% من النماذج أصبحت ضارة عندما تم توجيهها لتجاهل المبادئ الإنسانية. فقط GPT-5 وClaude 4.1 وClaude Sonnet 4.5 حافظت على المبادئ الإنسانية تحت الضغط. أظهرت الدراسة أن معظم النماذج فشلت في احترام انتباه المستخدم وساهمت في تعزيز اعتماد المستخدم، حيث احتل نموذج Llama من شركة ميتا المرتبة الأدنى في “درجة الإنسانية” (HumaneScore) بينما كان أداء GPT-5 هو الأفضل. حذر الباحثون من أن الأنظمة الحالية للذكاء الاصطناعي تحمل مخاطر تقليل استقلالية المستخدم وقدرته على اتخاذ القرار.