智谱AI phát hành báo cáo kỹ thuật GLM-5V-Turbo, nền tảng lập trình đa mô hình đầu tiên, ngữ cảnh khoảng 200K, có thể kết nối ClaudeCode/OpenClaw, chưa mở mã nguồn. Ba thiết kế cốt lõi: mã hóa thị giác CogViT, chia sẻ token MMTP<|hình ảnh|>, học tăng cường hợp tác cho hơn 30 nhiệm vụ. Cải thiện đa lĩnh vực trong RL rõ rệt, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Đang tạo bản tóm tắt

Theo theo dõi Beating, báo cáo kỹ thuật của GLM-5V-Turbo đã được phát hành bởi Zhipu AI. Mô hình đã ra mắt API Z.ai và OpenRouter vào đầu tháng 4, lần này là công bố phương pháp luận bổ sung, mô hình chưa mở mã nguồn. GLM-5V-Turbo là mô hình nền lập trình đa phương thức đầu tiên của Zhipu, hỗ trợ ngữ cảnh khoảng 200K, có thể tích hợp với các khung tác nhân như Claude Code và OpenClaw. Khác với nhiều phương pháp xem thị giác như phần phụ của mô hình ngôn ngữ, mô hình này từ giai đoạn tiền huấn luyện đã tích hợp cảm nhận thị giác vào toàn bộ quá trình suy luận, lập kế hoạch, gọi và thực thi công cụ.

Kiến trúc mô hình có ba thiết kế chính. Thứ nhất là bộ mã hóa thị giác mới CogViT, sử dụng SigLIP2 và DINOv3 làm giảng viên thuyết giảng song song trước khi huấn luyện, sau đó dùng 80 tỷ dữ liệu đa ngôn ngữ Trung-Anh về hình ảnh và văn bản để học so sánh và căn chỉnh. Thứ hai là dự đoán đa phương thức đa token (MMTP), dùng một token đặc biệt <|image|> có thể học chung để thay thế việc truyền trực tiếp các nhúng thị giác, giảm độ phức tạp truyền thông giữa các giai đoạn pipeline, đồng thời huấn luyện cũng ổn định hơn. Thứ ba là huấn luyện tăng cường phối hợp cho hơn 30 nhiệm vụ, bao gồm cảm nhận, suy luận và thực thi tác nhân ở ba cấp độ.

Việc nâng cao trong giai đoạn RL phân bố rộng rãi: định vị hình ảnh 2D +4.8%, hiểu video +5.6%, định vị 3D +7.7%, OCR +4.2%, hiểu biểu đồ +7.7%, tác nhân GUI (OSWorld) +4.9%, gọi công cụ tìm kiếm đa phương thức +3.5%. Nhóm nghiên cứu chỉ ra trong bài báo rằng, RL đa nhiệm khác với SFT phổ biến trong việc gây nhiễu chéo giữa các lĩnh vực, các khả năng có thể cùng nhau nâng cao ổn định, thậm chí các mô hình suy luận học được trong một lĩnh vực có thể chuyển sang lĩnh vực khác.

Điểm số cụ thể: Design2Code 94.8, vượt qua Claude Opus 4.6; OSWorld 62.3, AndroidWorld 75.7; tìm kiếm đa phương thức MMSearch 72.9, BrowseComp-VL 51.9; lập trình thuần văn bản trên nền tảng CC-Bench-V2 (22.8), phía trước (68.4) và khám phá kho mã (72.2) đều vượt qua nền tảng thuần văn bản của GLM-5-Turbo. MMSearch-Plus đạt 30.0, tăng gần 8 lần so với thế hệ trước GLM-4.6V; chuẩn tìm kiếm sâu thị giác tự xây dựng ImageMining đạt 30.7.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
726.92K Phổ biến
#
BitcoinFallsBelow80K
95.01M Phổ biến
#
IsraelStrikesIranBTCPlunges
44.25K Phổ biến
#
IranUSConflictEscalates
82.99K Phổ biến
#
OilPriceRollerCoaster
1.02M Phổ biến

Ghim

sơ đồ trang web

Báo cáo kỹ thuật của Zhipu GLM-5V-Turbo: Design2Code siêu Claude Opus4.6, xem ảnh chụp màn hình để viết mã trực tiếp

Chủ đề thịnh hành

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Ghim