微軟最新推出的 Fara-7B không chỉ là một mô hình AI nữa, nó đã thực tế chứng minh rằng “mô hình càng lớn càng thông minh” là một quan niệm truyền thống sai lầm. Mô hình “đại diện sử dụng máy tính” chỉ có 70 tỷ tham số này đã vượt qua GPT-4o của OpenAI trong nhiều bài kiểm tra tiêu chuẩn, đồng thời còn có thể chạy trực tiếp trên máy tính cá nhân của bạn mà không cần dựa vào đám mây.
Dữ liệu hiệu suất nói lên tất cả: mô hình nhỏ tại sao lại thắng
Trong bài kiểm tra tiêu chuẩn WebVoyager, Fara-7B đạt tỷ lệ hoàn thành nhiệm vụ 73.5%, vượt xa GPT-4o với 65.1%. Thật đáng kinh ngạc hơn nữa là chỉ số hiệu quả — hoàn thành cùng một thao tác chỉ cần 16 bước, trong khi UI-TARS-1.5-7B cùng cấp độ cần tới 41 bước, ít hơn 60% các bước thừa.
Điều này không phải là ngẫu nhiên, mà xuất phát từ việc Microsoft áp dụng phương pháp huấn luyện knowledge distillation. Bằng cách tích hợp 14.5 vạn ví dụ điều hướng do hệ thống đa đại lý Magentic-One tạo ra, Microsoft đã thành công nén khả năng của mô hình lớn vào một mô hình đơn giản hơn. Nền tảng dựa trên Qwen2.5-VL-7B, trang bị cửa sổ ngữ cảnh siêu dài 128,000 token, giúp khả năng hiểu thị giác đạt đến một tầm cao mới.
Nhìn màn hình, nhấn chuột: suy luận pixel-đến-đến định nghĩa lại tự động hóa
Điểm mạnh của Fara-7B nằm ở việc áp dụng logic “quan sát màn hình” để thực hiện tác vụ. Phương pháp truyền thống dựa vào mã cấu trúc trình duyệt, còn Fara-7B hoàn toàn dựa trên dữ liệu pixel để suy luận — đọc ảnh chụp màn hình, dự đoán các hành động như nhấp chuột, nhập văn bản, cuộn trang, v.v., ngay cả khi website hỗn độn mã cũng có thể hoạt động bình thường.
Yash Lara, quản lý sản phẩm của Viện Nghiên cứu Microsoft, gọi đây là “quyền lực pixel”, giúp các ngành nghề như y tế, tài chính, có thể yên tâm triển khai tại chỗ. Điều này có nghĩa là thông tin nhạy cảm của doanh nghiệp không còn cần phải tải lên đám mây nữa, độ trễ giảm đáng kể, và quyền riêng tư dữ liệu được bảo vệ thực sự.
Cơ chế an toàn: hệ thống tạm dừng tự động bảo vệ các thao tác quan trọng
Điều đáng chú ý là Fara-7B tích hợp cơ chế “điểm xác nhận quan trọng”. Khi gặp các thao tác liên quan đến dữ liệu cá nhân hoặc thao tác không thể hoàn tác (như gửi email, chuyển tiền), mô hình sẽ tự động tạm dừng và yêu cầu xác nhận thủ công, kết hợp với giao diện tương tác Magentic-UI, tạo thành một hàng rào hợp tác người-máy thực sự.
Mã nguồn mở nhưng chưa phải là môi trường sản xuất
Ngày 24 tháng 11, Microsoft chính thức mở mã nguồn Fara-7B theo giấy phép MIT, đã có mặt trên Hugging Face và nền tảng Microsoft Foundry, hỗ trợ ứng dụng thương mại. Tuy nhiên, Microsoft cũng thẳng thắn thừa nhận — mô hình hiện tại chưa đạt tiêu chuẩn triển khai trong môi trường sản xuất, chủ yếu phù hợp cho các nhà phát triển thử nghiệm nguyên mẫu và xác thực chức năng.
Việc ra mắt lần này phản ánh một hướng đi quan trọng: Microsoft rõ ràng tuyên bố trong tương lai sẽ không mù quáng theo đuổi các mô hình lớn hơn nữa, mà tập trung phát triển các giải pháp “nhỏ mà thông minh, an toàn”. Họ còn dự định tích hợp học tăng cường (reinforcement learning) trong môi trường sandbox để tự huấn luyện, nhằm nâng cao khả năng tự học của mô hình hơn nữa.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Microsoft Fara-7B hiệu năng vượt xa GPT-4o, mô hình 7 tỷ tham số làm thế nào để thực hiện tính toán tốc độ cao tại chỗ
微軟最新推出的 Fara-7B không chỉ là một mô hình AI nữa, nó đã thực tế chứng minh rằng “mô hình càng lớn càng thông minh” là một quan niệm truyền thống sai lầm. Mô hình “đại diện sử dụng máy tính” chỉ có 70 tỷ tham số này đã vượt qua GPT-4o của OpenAI trong nhiều bài kiểm tra tiêu chuẩn, đồng thời còn có thể chạy trực tiếp trên máy tính cá nhân của bạn mà không cần dựa vào đám mây.
Dữ liệu hiệu suất nói lên tất cả: mô hình nhỏ tại sao lại thắng
Trong bài kiểm tra tiêu chuẩn WebVoyager, Fara-7B đạt tỷ lệ hoàn thành nhiệm vụ 73.5%, vượt xa GPT-4o với 65.1%. Thật đáng kinh ngạc hơn nữa là chỉ số hiệu quả — hoàn thành cùng một thao tác chỉ cần 16 bước, trong khi UI-TARS-1.5-7B cùng cấp độ cần tới 41 bước, ít hơn 60% các bước thừa.
Điều này không phải là ngẫu nhiên, mà xuất phát từ việc Microsoft áp dụng phương pháp huấn luyện knowledge distillation. Bằng cách tích hợp 14.5 vạn ví dụ điều hướng do hệ thống đa đại lý Magentic-One tạo ra, Microsoft đã thành công nén khả năng của mô hình lớn vào một mô hình đơn giản hơn. Nền tảng dựa trên Qwen2.5-VL-7B, trang bị cửa sổ ngữ cảnh siêu dài 128,000 token, giúp khả năng hiểu thị giác đạt đến một tầm cao mới.
Nhìn màn hình, nhấn chuột: suy luận pixel-đến-đến định nghĩa lại tự động hóa
Điểm mạnh của Fara-7B nằm ở việc áp dụng logic “quan sát màn hình” để thực hiện tác vụ. Phương pháp truyền thống dựa vào mã cấu trúc trình duyệt, còn Fara-7B hoàn toàn dựa trên dữ liệu pixel để suy luận — đọc ảnh chụp màn hình, dự đoán các hành động như nhấp chuột, nhập văn bản, cuộn trang, v.v., ngay cả khi website hỗn độn mã cũng có thể hoạt động bình thường.
Yash Lara, quản lý sản phẩm của Viện Nghiên cứu Microsoft, gọi đây là “quyền lực pixel”, giúp các ngành nghề như y tế, tài chính, có thể yên tâm triển khai tại chỗ. Điều này có nghĩa là thông tin nhạy cảm của doanh nghiệp không còn cần phải tải lên đám mây nữa, độ trễ giảm đáng kể, và quyền riêng tư dữ liệu được bảo vệ thực sự.
Cơ chế an toàn: hệ thống tạm dừng tự động bảo vệ các thao tác quan trọng
Điều đáng chú ý là Fara-7B tích hợp cơ chế “điểm xác nhận quan trọng”. Khi gặp các thao tác liên quan đến dữ liệu cá nhân hoặc thao tác không thể hoàn tác (như gửi email, chuyển tiền), mô hình sẽ tự động tạm dừng và yêu cầu xác nhận thủ công, kết hợp với giao diện tương tác Magentic-UI, tạo thành một hàng rào hợp tác người-máy thực sự.
Mã nguồn mở nhưng chưa phải là môi trường sản xuất
Ngày 24 tháng 11, Microsoft chính thức mở mã nguồn Fara-7B theo giấy phép MIT, đã có mặt trên Hugging Face và nền tảng Microsoft Foundry, hỗ trợ ứng dụng thương mại. Tuy nhiên, Microsoft cũng thẳng thắn thừa nhận — mô hình hiện tại chưa đạt tiêu chuẩn triển khai trong môi trường sản xuất, chủ yếu phù hợp cho các nhà phát triển thử nghiệm nguyên mẫu và xác thực chức năng.
Việc ra mắt lần này phản ánh một hướng đi quan trọng: Microsoft rõ ràng tuyên bố trong tương lai sẽ không mù quáng theo đuổi các mô hình lớn hơn nữa, mà tập trung phát triển các giải pháp “nhỏ mà thông minh, an toàn”. Họ còn dự định tích hợp học tăng cường (reinforcement learning) trong môi trường sandbox để tự huấn luyện, nhằm nâng cao khả năng tự học của mô hình hơn nữa.