Báo cáo kỹ thuật của Zhipu GLM-5V-Turbo: Design2Code siêu Claude Opus4.6, xem ảnh chụp màn hình để viết mã trực tiếp

robot
Đang tạo bản tóm tắt

Theo theo dõi Beating, báo cáo kỹ thuật của GLM-5V-Turbo đã được phát hành bởi Zhipu AI. Mô hình đã ra mắt API Z.ai và OpenRouter vào đầu tháng 4, lần này là công bố phương pháp luận bổ sung, mô hình chưa mở mã nguồn. GLM-5V-Turbo là mô hình nền lập trình đa phương thức đầu tiên của Zhipu, hỗ trợ ngữ cảnh khoảng 200K, có thể tích hợp với các khung tác nhân như Claude Code và OpenClaw. Khác với nhiều phương pháp xem thị giác như phần phụ của mô hình ngôn ngữ, mô hình này từ giai đoạn tiền huấn luyện đã tích hợp cảm nhận thị giác vào toàn bộ quá trình suy luận, lập kế hoạch, gọi và thực thi công cụ.

Kiến trúc mô hình có ba thiết kế chính. Thứ nhất là bộ mã hóa thị giác mới CogViT, sử dụng SigLIP2 và DINOv3 làm giảng viên thuyết giảng song song trước khi huấn luyện, sau đó dùng 80 tỷ dữ liệu đa ngôn ngữ Trung-Anh về hình ảnh và văn bản để học so sánh và căn chỉnh. Thứ hai là dự đoán đa phương thức đa token (MMTP), dùng một token đặc biệt <|image|> có thể học chung để thay thế việc truyền trực tiếp các nhúng thị giác, giảm độ phức tạp truyền thông giữa các giai đoạn pipeline, đồng thời huấn luyện cũng ổn định hơn. Thứ ba là huấn luyện tăng cường phối hợp cho hơn 30 nhiệm vụ, bao gồm cảm nhận, suy luận và thực thi tác nhân ở ba cấp độ.

Việc nâng cao trong giai đoạn RL phân bố rộng rãi: định vị hình ảnh 2D +4.8%, hiểu video +5.6%, định vị 3D +7.7%, OCR +4.2%, hiểu biểu đồ +7.7%, tác nhân GUI (OSWorld) +4.9%, gọi công cụ tìm kiếm đa phương thức +3.5%. Nhóm nghiên cứu chỉ ra trong bài báo rằng, RL đa nhiệm khác với SFT phổ biến trong việc gây nhiễu chéo giữa các lĩnh vực, các khả năng có thể cùng nhau nâng cao ổn định, thậm chí các mô hình suy luận học được trong một lĩnh vực có thể chuyển sang lĩnh vực khác.

Điểm số cụ thể: Design2Code 94.8, vượt qua Claude Opus 4.6; OSWorld 62.3, AndroidWorld 75.7; tìm kiếm đa phương thức MMSearch 72.9, BrowseComp-VL 51.9; lập trình thuần văn bản trên nền tảng CC-Bench-V2 (22.8), phía trước (68.4) và khám phá kho mã (72.2) đều vượt qua nền tảng thuần văn bản của GLM-5-Turbo. MMSearch-Plus đạt 30.0, tăng gần 8 lần so với thế hệ trước GLM-4.6V; chuẩn tìm kiếm sâu thị giác tự xây dựng ImageMining đạt 30.7.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim