مرور عام على مرور سنة على إصدار DeepSeek-R1 وكشف النقاب عن النموذج الجديد «MODEL1»

robot
إنشاء الملخص قيد التقدم

في 21 يناير، وفقًا لQuantumbit، تم الكشف عن النموذج الجديد “MODEL1” بمناسبة مرور عام على إصدار DeepSeek-R1. قام DeepSeek بتحديث رمز FlashMLA على GitHub، حيث تم ذكر MODEL1 في 28 مكانًا عبر 114 ملفًا، وظهر كنسخة مختلفة عن V32. من المعروف أن V32 هو DeepSeek-V3.2، ومن المحتمل أن يكون MODEL1 هو الهيكل الجديد. تظهر الاختلافات المحددة في الكود في تخطيط ذاكرة التخزين المؤقت لـ KV، ومعالجة التشتت، وديكود FP8، مع وجود عدة اختلافات في تحسين الذاكرة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت