智谱AI أصدرت تقرير تقنية GLM-5V-Turbo، أول منصة برمجة متعددة الوسائط، بسياق يبلغ حوالي 200 ألف، يمكن الاتصال بـ ClaudeCode/OpenClaw، غير مفتوحة المصدر. التصميمات الثلاثة الأساسية: ترميز الرؤية CogViT، مشاركة رموز <|image|> عبر MMTP، والتعلم المعزز المشترك لأكثر من 30 مهمة. تحسينات RL متعددة المجالات ملحوظة، Design2Code 94.8، MMSearch-Plus 30.0، ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت شركة Zhipu AI تقريرًا تقنيًا عن GLM-5V-Turbo. النموذج تم إطلاقه بالفعل في أوائل أبريل عبر واجهة برمجة التطبيقات Z.ai و OpenRouter، وهذه المرة هو نشر منهجية الكشف، ولم يتم إصدار النموذج كمصدر مفتوح. يعتبر GLM-5V-Turbo أول نموذج برمجة متعدد الوسائط من Zhipu، يدعم سياقًا يصل إلى 200 ألف، ويمكن دمجه مع أطر عمل الوكيل مثل Claude Code و OpenClaw. بخلاف العديد من الطرق التي تعتبر الرؤية ملحقًا لنموذج اللغة، يدمج هذا النموذج الإدراك البصري في جميع مراحل الاستدلال والتخطيط واستدعاء الأدوات وتنفيذها منذ مرحلة التدريب المسبق.

يتكون هيكل النموذج من ثلاثة تصاميم رئيسية. الأولى هي المشفر البصري الجديد CogViT، الذي يتم تدريبه مسبقًا بواسطة تقنيتي SigLIP2 و DINOv3 كمدرسين مزدوجين، ثم يتم محاذاته باستخدام تعلم المقارنة مع 8 مليارات من البيانات النصية والصور ثنائية اللغة الصينية والإنجليزية. الثانية هي التنبؤ متعدد الوسائط والمتعدد الرموز (MMTP)، حيث يتم استبدال الإدخال المباشر للصور بواسطة رمز خاص قابل للتعلم <|image|>، مما يقلل من تعقيد التواصل بين مراحل خط الأنابيب ويجعل التدريب أكثر استقرارًا. الثالثة هي التعلم المعزز المشترك لأكثر من 30 مهمة، والتي تغطي مستويات الإدراك والاستدلال وتنفيذ الوكيل.

التحسينات خلال مرحلة التعلم المعزز تتوزع على نطاق واسع: تحديد المواقع في الصور ثنائية الأبعاد +4.8%، فهم الفيديو +5.6%، تحديد المواقع ثلاثية الأبعاد +7.7%، التعرف على النصوص البصرية +4.2%، فهم الرسوم البيانية +7.7%، وكيل واجهة المستخدم الرسومية (OSWorld) +4.9%، استدعاء أدوات البحث متعددة الوسائط +3.5%. وأشار الفريق في الورقة البحثية إلى أن التعلم المعزز متعدد المهام يختلف عن التدخل عبر المجالات الشائع في Fine-Tuning، حيث يمكن لكل قدرة أن تتطور بشكل مستقر معًا، وحتى أن أنماط الاستدلال التي تم تعلمها في مجال معين يمكن أن تنتقل إلى مجالات أخرى.

أما عن نتائج الأداء المحددة: تصميم2كود 94.8، متفوقًا على Claude Opus بمقدار 4.6؛ OSWorld 62.3، AndroidWorld 75.7؛ البحث متعدد الوسائط MMSearch 72.9، BrowseComp-VL 51.9؛ البرمجة النصية البحتة على خلفية CC-Bench-V2 (22.8)، الواجهة الأمامية (68.4)، واستكشاف مستودعات الكود (72.2) تفوقت على قاعدة GLM-5-Turbo النصية البحتة. حصل MMSearch-Plus على 30.0، بزيادة تقارب 8 أضعاف عن الجيل السابق GLM-4.6V؛ كما حقق معيار البحث العميق البصري الذي تم تطويره داخليًا ImageMining نتيجة 30.7.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
752.73K درجة الشعبية
#
BitcoinFallsBelow80K
95.02M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
44.29K درجة الشعبية
#
IranUSConflictEscalates
88.73K درجة الشعبية
#
OilPriceRollerCoaster
306.42K درجة الشعبية

تثبيت

خريطة الموقع

تقرير تقنية 智谱GLM-5V-Turbo: Design2Code يتجاوز Claude Opus4.6، اكتب الكود مباشرة من الصورة الملتقطة

المواضيع الرائجة

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

تثبيت