🚨 أنثروبيك يضع خط أساس جديد مع كلاود أوبس 4.7


تركز هذه الإصدار أقل على الأداء الخام وأكثر على الاعتمادية والتنفيذ.
يقدم وكلاء قادرين على العمل لساعات دون انحراف، جنبًا إلى جنب مع تقليل الهلوسات وتحسين المعايرة. كما تم تعزيز السلامة، مع مقاومة أفضل لمحاولات حقن الأوامر وفتح القفل.
يحتفظ النموذج بنافذة سياق من مليون رمز، لكنه الآن يظهر استرجاعًا وتفكيرًا أكثر فاعلية عبر مدخلات كبيرة.
إضافة رئيسية هي "الروتينات".
هذه سير عمل مستمرة يتم تفعيلها بواسطة واجهات برمجة التطبيقات، الجداول الزمنية، أو الأحداث، مما يسمح للمهام بالعمل بشكل مستقل في الخلفية.
إليك التحول:
الذكاء الاصطناعي يتحول من مساعد إلى بنية تحتية.
64.3% على اختبار SWE، ارتفاعًا من 53.4%
87.6% على التشفير الوكالي الموثق
77.3% على استخدام الأدوات الموسع
78.0% على مهام الحاسوب في العالم الحقيقي
كما يحسن الأداء حيث تتدهور النماذج عادة:
79.3% على البحث الوكالي
64.4% على التحليل المالي
91.5% على الأسئلة والأجوبة متعددة اللغات
والأهم من ذلك، يظل التفكير في السياق الطويل ثابتًا:
أكثر من 90% من التفكير البصري باستخدام الأدوات
94.2% على معايير مستوى الدراسات العليا
إليك الخلاصة:
هذه ليست عن تحقيق أعلى الدرجات.
إنها عن الثبات عبر المجالات.
لا يتفوق أوبس 4.7 على كل فئة.
لكنها تؤدي بشكل موثوق عبر جميعها.
هذا ما تحتاجه أنظمة الإنتاج.
الحدود لم تعد تقتصر على الذكاء فقط.
بل هي الاستقرار تحت الأحمال الحقيقية.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت