تركز هذه الإصدار أقل على الأداء الخام وأكثر على الاعتمادية والتنفيذ.
يقدم وكلاء قادرين على العمل لساعات دون انحراف، جنبًا إلى جنب مع تقليل الهلوسات وتحسين المعايرة. كما تم تعزيز السلامة، مع مقاومة أفضل لمحاولات حقن الأوامر وفتح القفل.
يحتفظ النموذج بنافذة سياق من مليون رمز، لكنه الآن يظهر استرجاعًا وتفكيرًا أكثر فاعلية عبر مدخلات كبيرة.
إضافة رئيسية هي "الروتينات".
هذه سير عمل مستمرة يتم تفعيلها بواسطة واجهات برمجة التطبيقات، الجداول الزمنية، أو الأحداث، مما يسمح للمهام بالعمل بشكل مستقل في الخلفية.
إليك التحول:
الذكاء الاصطناعي يتحول من مساعد إلى بنية تحتية.
64.3% على اختبار SWE، ارتفاعًا من 53.4%
87.6% على التشفير الوكالي الموثق
77.3% على استخدام الأدوات الموسع
78.0% على مهام الحاسوب في العالم الحقيقي
كما يحسن الأداء حيث تتدهور النماذج عادة:
79.3% على البحث الوكالي
64.4% على التحليل المالي
91.5% على الأسئلة والأجوبة متعددة اللغات
والأهم من ذلك، يظل التفكير في السياق الطويل ثابتًا:
أكثر من 90% من التفكير البصري باستخدام الأدوات
94.2% على معايير مستوى الدراسات العليا
إليك الخلاصة:
هذه ليست عن تحقيق أعلى الدرجات.
إنها عن الثبات عبر المجالات.
لا يتفوق أوبس 4.7 على كل فئة.
لكنها تؤدي بشكل موثوق عبر جميعها.
هذا ما تحتاجه أنظمة الإنتاج.
الحدود لم تعد تقتصر على الذكاء فقط.
بل هي الاستقرار تحت الأحمال الحقيقية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GatePreIPOsLaunchesWithSpaceX
155.85K درجة الشعبية
#
Gate13thAnniversaryLive
423.63K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
29.97K درجة الشعبية
#
US-IranTalksVSTroopBuildup
773.72K درجة الشعبية
#
CryptoMarketRecovery
98.01K درجة الشعبية

تثبيت

خريطة الموقع

🚨 أنثروبيك يضع خط أساس جديد مع كلاود أوبس 4.7

المواضيع الرائجة

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

تثبيت