مرور عام على إصدار DeepSeek-R1، وفي هذه النقطة، يظهر في شفرة GitHub نموذج جديد يلوح في الأفق. وفقًا لأحدث الأخبار، عند تحديث قاعدة شفرة FlashMLA، تم ذكر “MODEL1” في 28 موضعًا من أصل 114 ملفًا، مع ظهورها كهيكل نموذج مختلف عن V32 (DeepSeek-V3.2). هذه الخيوط البرمجية المتفرقة ترسم صورة لDeepSeek وهو يواصل تطوير هياكل جديدة بشكل مستمر.
إشارات الابتكار في الشفرة
الاختلافات في التفاصيل التقنية
يوجد اختلاف واضح بين MODEL1 وV32 في التنفيذ البرمجي، ويتركز بشكل رئيسي على ثلاثة جوانب رئيسية:
تحسين وتعديل تخطيط ذاكرة التخزين المؤقت KV
تحسين آلية معالجة التفرع
ابتكار طريقة فك ترميز FP8
هذه التعديلات تتجه جميعها نحو هدف واحد: تحسين استهلاك الذاكرة. في تطبيقات استنتاج النماذج الكبيرة، إدارة ذاكرة التخزين المؤقت KV تؤثر مباشرة على سرعة الاستنتاج واستهلاك الذاكرة، ومعالجة التفرع تتعلق بكفاءة النموذج، وطرق فك ترميز FP8 تتعلق بالتوازن بين دقة الحساب وسرعته. كلها مجالات يركز عليها القطاع بشكل كبير.
لماذا هو هيكل جديد
V32 هو نسخة مطورة من V3، ويعتبر تحسينًا من جيل واحد. بينما يظهر MODEL1 في الشفرة كعلامة لنموذج مستقل، مما يدل على أن الأمر ليس مجرد تعديل في المعلمات، بل ربما يمثل ابتكارًا على مستوى الهيكلية. هذا التمييز نادر في إدارة شفرة DeepSeek، ويشير إلى أهمية MODEL1.
القدرات البحثية والتطويرية وراء ذلك
ظهور MODEL1 يعكس استمرارية استثمار DeepSeek في التقنية. وفقًا للمعلومات المنشورة، تكلف عملية تدريب R1 حوالي 29.4 ألف دولار، بينما الميزانية الإجمالية لـV3 تصل إلى 5.57 مليون دولار. هذه التكاليف ليست مرتفعة مقارنة بأفضل المختبرات في وادي السيليكون، لكن إصدار هياكل ونماذج جديدة بشكل مستمر يتطلب دعمًا ماليًا مستقرًا.
ويأتي هذا الدعم من خلال تقنية幻方量化 (Fangfang Quantization) التي تدعمها DeepSeek. في عام 2025، بلغ متوسط عائدات幻方量化 حوالي 56.55%، وتدير أصولًا تتجاوز 700 مليار يوان، مع تقديرات لإيرادات سنوية قد تتجاوز 5 مليارات يوان. هذا التدفق النقدي يمكن DeepSeek من التركيز على البحث والتطوير على المدى الطويل دون ضغط التمويل الخارجي.
الاتجاهات المستقبلية المحتملة
استنادًا إلى التحسينات في الشفرة، من المتوقع أن يحقق MODEL1 تقدمًا في عدة مجالات:
زيادة كفاءة الاستنتاج، خاصة على الأجهزة المحمولة أو في سيناريوهات الحوسبة الحدية
تحقيق توازن جديد بين حجم النموذج والأداء
تصميم هياكل مخصصة لمجالات تطبيق معينة
هذه الاتجاهات تتماشى مع الاتجاه السائد في تطوير النماذج الكبيرة، حيث لا يكون الهدف مجرد زيادة المعلمات، بل السعي لتحقيق أفضل توازن بين الكفاءة والتكلفة والأداء.
الخلاصة
عند مرور عام على R1، تم الكشف عن MODEL1، وهو استمرار طبيعي للابتكار التقني، ويعكس وتيرة البحث والتطوير في DeepSeek. من تفاصيل الشفرة، يتضح أن الشركة تركز على تحسينات هندسية جادة، وليس مجرد ترويج للمفاهيم. بالمقارنة مع شركات أخرى، تمتلك DeepSeek ميزتين: موارد بحث وتطوير كافية، وتراكم تقني مستمر. ظهور MODEL1 هو مجرد محطة في هذا المسار. السؤال الآن هو: متى سيتم إصدار هذا الهيكل الجديد رسميًا، وما مدى التحسينات التي سيحققها في الأداء؟ ربما ستتضح الإجابات قريبًا.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
R1 الذكرى السنوية الأولى للكشف عن النموذج 1: أدلة تقنية تركها DeepSeek على GitHub
مرور عام على إصدار DeepSeek-R1، وفي هذه النقطة، يظهر في شفرة GitHub نموذج جديد يلوح في الأفق. وفقًا لأحدث الأخبار، عند تحديث قاعدة شفرة FlashMLA، تم ذكر “MODEL1” في 28 موضعًا من أصل 114 ملفًا، مع ظهورها كهيكل نموذج مختلف عن V32 (DeepSeek-V3.2). هذه الخيوط البرمجية المتفرقة ترسم صورة لDeepSeek وهو يواصل تطوير هياكل جديدة بشكل مستمر.
إشارات الابتكار في الشفرة
الاختلافات في التفاصيل التقنية
يوجد اختلاف واضح بين MODEL1 وV32 في التنفيذ البرمجي، ويتركز بشكل رئيسي على ثلاثة جوانب رئيسية:
هذه التعديلات تتجه جميعها نحو هدف واحد: تحسين استهلاك الذاكرة. في تطبيقات استنتاج النماذج الكبيرة، إدارة ذاكرة التخزين المؤقت KV تؤثر مباشرة على سرعة الاستنتاج واستهلاك الذاكرة، ومعالجة التفرع تتعلق بكفاءة النموذج، وطرق فك ترميز FP8 تتعلق بالتوازن بين دقة الحساب وسرعته. كلها مجالات يركز عليها القطاع بشكل كبير.
لماذا هو هيكل جديد
V32 هو نسخة مطورة من V3، ويعتبر تحسينًا من جيل واحد. بينما يظهر MODEL1 في الشفرة كعلامة لنموذج مستقل، مما يدل على أن الأمر ليس مجرد تعديل في المعلمات، بل ربما يمثل ابتكارًا على مستوى الهيكلية. هذا التمييز نادر في إدارة شفرة DeepSeek، ويشير إلى أهمية MODEL1.
القدرات البحثية والتطويرية وراء ذلك
ظهور MODEL1 يعكس استمرارية استثمار DeepSeek في التقنية. وفقًا للمعلومات المنشورة، تكلف عملية تدريب R1 حوالي 29.4 ألف دولار، بينما الميزانية الإجمالية لـV3 تصل إلى 5.57 مليون دولار. هذه التكاليف ليست مرتفعة مقارنة بأفضل المختبرات في وادي السيليكون، لكن إصدار هياكل ونماذج جديدة بشكل مستمر يتطلب دعمًا ماليًا مستقرًا.
ويأتي هذا الدعم من خلال تقنية幻方量化 (Fangfang Quantization) التي تدعمها DeepSeek. في عام 2025، بلغ متوسط عائدات幻方量化 حوالي 56.55%، وتدير أصولًا تتجاوز 700 مليار يوان، مع تقديرات لإيرادات سنوية قد تتجاوز 5 مليارات يوان. هذا التدفق النقدي يمكن DeepSeek من التركيز على البحث والتطوير على المدى الطويل دون ضغط التمويل الخارجي.
الاتجاهات المستقبلية المحتملة
استنادًا إلى التحسينات في الشفرة، من المتوقع أن يحقق MODEL1 تقدمًا في عدة مجالات:
هذه الاتجاهات تتماشى مع الاتجاه السائد في تطوير النماذج الكبيرة، حيث لا يكون الهدف مجرد زيادة المعلمات، بل السعي لتحقيق أفضل توازن بين الكفاءة والتكلفة والأداء.
الخلاصة
عند مرور عام على R1، تم الكشف عن MODEL1، وهو استمرار طبيعي للابتكار التقني، ويعكس وتيرة البحث والتطوير في DeepSeek. من تفاصيل الشفرة، يتضح أن الشركة تركز على تحسينات هندسية جادة، وليس مجرد ترويج للمفاهيم. بالمقارنة مع شركات أخرى، تمتلك DeepSeek ميزتين: موارد بحث وتطوير كافية، وتراكم تقني مستمر. ظهور MODEL1 هو مجرد محطة في هذا المسار. السؤال الآن هو: متى سيتم إصدار هذا الهيكل الجديد رسميًا، وما مدى التحسينات التي سيحققها في الأداء؟ ربما ستتضح الإجابات قريبًا.