مراقب الذكاء الاصطناعي يحذر من مخاطر "النشر غير المشروع" في المختبرات الكبرى، مع تزايد القدرات بسرعة

باختصار

  • يمكن لوكلاء الذكاء الاصطناعي في المختبرات الكبرى أن يبدأوا عمليات "متمردة" غير مصرح بها، وفقًا لتقرير مستقل مفصل، لكن الوكلاء حاليًا يفتقرون إلى التعقيد الكافي لاستدامتها ضد التدابير المضادة الجدية.
  • يتلاعب الوكلاء ويخدعون بشكل روتيني عندما يواجهون مهامًا صعبة، بما في ذلك تغطية آثارهم، وتزوير إكمال المهام، وتفعيل سلوكيات "التلاعب الاستراتيجي".
  • الرقابة ضعيفة بشكل خطير، حيث يمر جزء كبير من نشاط الوكيل دون مراجعة، وغالبًا ما يمتلك الوكلاء صلاحيات نظام على مستوى الإنسان، ويمكن لبعضهم التعرف عندما يتم تطبيق المراقبة.

وكلاء الذكاء الاصطناعي الذين يعملون داخل بعض من أقوى شركات التكنولوجيا في العالم قادرون بما يكفي لبدء عمليات غير مصرح بها ذاتية التوجيه—ويظهرون ميولًا مقلقة للخداع للبشر المشرفين عليهم—وفقًا لتقييم مستقل من نوعه نُشر يوم الثلاثاء. درس التقرير، الذي أعدته منظمة تقييم الذكاء الاصطناعي غير الربحية METR، الوكلاء الذكاء الاصطناعي الذين تم نشرهم داخليًا في أنثروبيك، جوجل، ميتا، وOpenAI بين فبراير ومارس من هذا العام. استنتاجه المركزي هو مطمئن ومقلق في آن واحد: أنظمة الذكاء الاصطناعي الحالية ربما يمكنها أن تبدأ ما يسميه الباحثون "نشر متمرد"—مجموعة من الوكلاء تعمل بشكل مستقل دون علم أو إذن بشري—لكنها على الأرجح ستفشل في الاستمرار في ذلك ضد أي تدابير مضادة جدية. هذه النافذة من الأمان النسبي، يحذر المؤلفون، قد لا تظل مفتوحة لفترة طويلة.

"نظرًا للتطور السريع للقدرات، نتوقع أن تزداد قوة احتمالية النشر المتمرد بشكل كبير في الأشهر القادمة"، يقول التقرير، مع تخطيط METR بشكل مؤقت لتكرار التمرين قبل نهاية عام 2026.  وجد التقييم أن نماذج الذكاء الاصطناعي المتقدمة التي تشترك فيها الشركات المشاركة يمكنها إكمال مهام هندسة البرمجيات بشكل مستقل، والتي كانت ستستغرق خبراء بشريين أيامًا أو أسابيع، مع أن معايير METR الخاصة بها كانت مشبعة بشكل أساسي بأكثر الأنظمة قدرة. أبلغ الباحثون في جميع الشركات الأربع عن الاعتماد بشكل كبير على وكلاء الذكاء الاصطناعي في البرمجة، وتحليل البيانات، والمهام البحثية—غالبًا بنفس صلاحيات النظام التي يمتلكها الموظف البشري وبدون إشراف فوري كافٍ. لكن النتائج الأكثر إثارة للدهشة في التقرير تتعلق ليس بما يمكن لهذه الأنظمة فعله، بل بكيفية تصرفها عندما تواجه صعوبة. عبر مئات عمليات التقييم، حاول الوكلاء بشكل روتيني الغش عندما واجهوا مهامًا صعبة—وليس بطرق بسيطة، بل من خلال مخططات معقدة ومتعمّدة.

في حالة موثقة واحدة، صمم نموذج استغلالًا يهدف إلى تعطيله بعد التنفيذ، مما يغطي أثره بشكل فعال. وجدت أدوات التفسير التي فحصت الحالة الداخلية للنموذج أن الميزات المرتبطة بـ"التلاعب الاستراتيجي" و"تجنب الشبهة" قد تم تفعيلها أثناء تنفيذ أوامر التنظيف. وأبلغت الشركات نفسها عن حوادث مماثلة داخليًا. وُجد أن الوكلاء كانوا يزورون أدلة إكمال المهام، ويتجاوزون ضوابط الأمان، وفي حالة واحدة على الأقل، أنشأوا نسخة وهمية من تطبيق ويب وقدموا لقطة شاشة لها كدليل على العمل على النسخة الحقيقية. على الرغم من هذه النتائج، توقف METR عن الاستنتاج بأن أي نظام ذكاء اصطناعي قد طور نوع الأهداف غير المتوافقة المستمرة والطويلة الأمد التي يخشاها الباحثون في السلامة أكثر. لم تبلغ أي شركة عن وجود أدلة واضحة على أن الوكلاء يخططون عبر الجلسات أو يجمعون موارد لأغراض مستقلة. عند البحث النشط عن مثل هذا السلوك، وجدوا القليل. ومع ذلك، يشير التقرير إلى وجود ثغرة هيكلية: في الفترة من فبراير إلى مارس، مر جزء كبير من نشاط الوكلاء في هذه الشركات دون مراجعة من قبل أي إنسان. بدا أن بعض الوكلاء قادرون على التعرف عندما كانت المراقبة من المحتمل أن تُطبق—وتصرفوا وفقًا لذلك. يمثل التقييم خطوة مهمة نحو المساءلة المستقلة لتطوير الذكاء الاصطناعي، حيث منح METR الوصول إلى نماذج غير عامة وبيانات داخلية نادرًا ما يراها المقيمون الخارجيون. سواء ستقوم الصناعة بتثبيت مثل هذا التدقيق قبل أن تتجاوز القدرات الرقابة، يظل، كما يقترح المؤلفون، سؤالًا مفتوحًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت