Tác giả: Vô Kị, biên dịch viên đặc biệt của Công nghệ Tencent
Vào lúc 11 giờ sáng theo giờ Bắc Kinh vào ngày 19 tháng 11, sau khi Google công bố mô hình Gemini 3, chương trình đặc biệt của podcast công nghệ “Hard Fork” thuộc The New York Times đã phát sóng, với sự phỏng vấn độc quyền của người dẫn chương trình Kevin Roose và Casey Newton với Giám đốc điều hành của Google DeepMind, Demis Hassabis và người đứng đầu đội ngũ Gemini của Google, Josh Woodward.
Cuộc phỏng vấn lần này tập trung vào mô hình AI hàng đầu mới nhất được Google phát hành, Gemini 3 (trên thực tế là phiên bản Pro trong loạt Gemini 3.0), đây là lần đầu tiên Google được ngành công nghiệp công nhận rộng rãi đã lấy lại vị thế dẫn đầu về công nghệ và sản phẩm sau khi trải qua thất bại của Bard và giai đoạn theo kịp Gemini 1.x và 2.x.
Hai người phụ trách đã giải thích chi tiết về những đột phá của Gemini 3 trong việc suy luận nhiều bước, tạo mã (đặc biệt là frontend và “mã hóa không khí”), và tạo ra giao diện tương tác một cách động, nhấn mạnh rằng Google đã nhanh chóng đưa mô hình mạnh nhất vào các sản phẩm cho hàng tỷ người dùng như tìm kiếm, Gmail, Workspace, tái định hình rào cản cạnh tranh.
Quan điểm cốt lõi của cuộc phỏng vấn:
Gemini 3 hoàn toàn phù hợp với lộ trình phát triển dự kiến, còn 5 đến 10 năm và 1 đến 2 lần đột phá nghiên cứu lớn nữa để đạt được trí tuệ nhân tạo tổng quát (AGI);
Lợi thế toàn diện của Google về hiệu suất, chi phí và phân phối sẽ giúp họ chiến thắng trong bất kỳ môi trường thị trường nào;
Phần bong bóng AI tồn tại, nhưng Google đồng thời sở hữu bảo đảm kép về lợi nhuận ngắn hạn và lĩnh vực mới trị giá hàng nghìn tỷ trong dài hạn.
Dưới đây là phiên bản tóm tắt nội dung phỏng vấn.
Rốt: Kacey, hôm nay chúng ta sẽ phát sóng một chương trình đặc biệt tạm thời, chủ đề là sự ra mắt của Gemini 3.
Newton: Vâng, Kevin. Mô hình này đã được mong chờ từ lâu trong cộng đồng AI ở Silicon Valley, và cuối cùng chúng ta cũng sẽ được trải nghiệm sản phẩm thực sự.
Rodz: Chúng tôi quyết định phá vỡ nhịp điệu phát hành vào thứ Sáu để ghi hình tập này vì hai lý do chính. Thứ nhất, chúng tôi đã có cơ hội phỏng vấn hai lãnh đạo cốt lõi AI của Google (Giám đốc điều hành DeepMind, Demis Hassabis, và Phó Giám đốc nhóm Gemini, John Woodward).
Thứ hai, việc phát hành Gemini 3 đã thu hút sự chú ý mạnh mẽ từ ngành công nghiệp. Chúng tôi nghe được nhiều thông tin nội bộ từ các phòng thí nghiệm cho biết, mẫu này đã đạt được những bước đột phá trong một số lĩnh vực quan trọng, có thể tạo ra mối đe dọa thực sự cho các đối thủ cạnh tranh. Trong hai năm qua, Google đã được coi là kẻ theo đuổi, câu hỏi hiện tại là: Liệu họ đã trở lại vị trí dẫn đầu?
Newton: Trước khi chính thức bắt đầu cuộc phỏng vấn, chúng ta hãy tóm tắt những thông tin đã biết. Google đã tổ chức một cuộc họp báo kín trước khi ra mắt, những khả năng mới đáng chú ý nhất của Gemini 3 bao gồm: khả năng lập trình và “lập trình bầu không khí” được cải thiện đáng kể; cũng như chức năng tạo giao diện tương tác hoàn toàn mới.
Nó không còn chỉ xuất ra chữ viết nữa, mà còn trực tiếp tạo ra giao diện tương tác tùy chỉnh cho người dùng. Ví dụ, khi người dùng hỏi về cuộc đời của Van Gogh, mô hình sẽ ngay lập tức tạo ra một trang học tập hoàn chỉnh với hình ảnh, dòng thời gian và các yếu tố tương tác; hay như tính toán khoản vay cho bất động sản trị giá hơn một triệu đô la. Những chức năng này đánh dấu sự chuyển mình từ “trả lời câu hỏi” sang “xây dựng trải nghiệm”.
Roz: Trong tất cả các bài kiểm tra chuẩn công khai, Gemini 3 đã vượt xa Gemini 2.5 Pro. Ví dụ, trong bộ bài tập mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity's Last Exam), một bài kiểm tra cấp độ tiến sĩ liên ngành, điểm số của phiên bản trước chỉ là 21.6%, trong khi phiên bản sau đã nâng lên 37.5%. Tuyên bố tổng thể của Google là: bất kỳ nhiệm vụ nào bạn có thể hoàn thành trên ChatGPT, Claude hoặc các phiên bản cũ của Gemini, bạn đều có thể thực hiện tốt hơn trên Gemini 3.
Newton: Họ cũng đã trình bày một bản demo sớm của Gemini Agent: mô hình có thể truy cập sâu vào hộp thư người dùng, hiểu toàn bộ nội dung email, tự động phân loại, soạn thảo phản hồi, thậm chí giúp người dùng dọn sạch hộp thư đến.
Ngoài ra, từ tuần này, Gemini 3 sẽ ra mắt trên ứng dụng Gemini và Chế độ AI của Google Search; sinh viên đại học Mỹ sẽ được hưởng quyền truy cập miễn phí vào phiên bản cao cấp trong một năm. Từ khóa mà Google nhấn mạnh là “Learn Anything” (Học bất cứ điều gì), điều này thực sự định vị Gemini như một công cụ giáo dục cá nhân hóa tối ưu.
Rốt: Demis, Josh, chào mừng đến với “Hard Fork”. Hai năm trước, Sundar Pichai đã so sánh Bard với “một chiếc Honda Civic đã được độ lại”, trong cuộc đua trên đường đua với những đối thủ mạnh hơn. Vậy, Gemini 3 là chiếc xe gì?
Hásàbǐsī: Tôi hy vọng nó nhanh hơn nhiều so với Honda Civic. Tôi không quen dùng ô tô để so sánh, có lẽ nó giống như một chiếc xe đua kéo chuyên nghiệp (Drag Racer). Nó không được thiết kế cho việc lái hàng ngày hay đua vòng tròn, mà có sức mạnh lớn lao, tinh túy của một mục tiêu cụ thể. Nó đại diện cho sự kết hợp hoàn hảo giữa những thành tựu nghiên cứu hàng đầu của chúng tôi và sức mạnh tính toán quy mô, mục tiêu là để thể hiện sức bùng nổ không thể so sánh được trong cuộc đua ở rìa trí tuệ.
Rodz: Điều này thật thú vị. So với tất cả các mô hình AI trước đây, Gemini 3 có thể làm gì mới mẻ ở cấp độ cụ thể? Xin hãy cho chúng tôi một số ví dụ định lượng và thực tế.
Woodward: Có ba điểm nổi bật nhất. Thứ nhất, về khả năng suy luận đa bước, nó có thể nghĩ cùng một lúc nhiều bước hơn, chúng tôi đã nâng độ tin cậy của nó lên một tầm cao mới. Các mô hình trước đây thường “mất phương hướng” hoặc tạo ra ảo giác khi thực hiện các suy diễn logic phức tạp ở bước thứ 5, 6, trong khi Gemini 3 có thể hoàn thành đáng tin cậy các nhiệm vụ suy luận liên tục từ 10 đến 15 bước, chẳng hạn như lập kế hoạch thuế phức tạp, lập kế hoạch và đặt chỗ cho các chuyến đi xuyên quốc gia, hoặc gỡ lỗi toàn diện một hệ thống khổng lồ với hàng triệu dòng mã.
Thứ hai, nó sẽ lần đầu tiên tạo ra một giao diện tương tác hoàn toàn mới trên quy mô lớn. Nhu cầu của người dùng không còn chỉ là những câu trả lời bằng văn bản đơn giản, mà là các thành phần phần mềm tùy chỉnh. Chẳng hạn, bạn hỏi nó: “Giúp tôi thiết kế một bảng điều khiển có thể theo dõi tất cả danh mục đầu tư của tôi”, nó sẽ tạo ra một giao diện bảng điều khiển tương tác và có thể thao tác theo thời gian thực, thay vì chỉ là một đống văn bản mô tả cách tạo bảng điều khiển.
Thứ ba, chúng tôi đã đầu tư một nguồn lực khổng lồ vào khả năng lập trình, đặc biệt là lập trình giao diện và “lập trình không khí”, điều này có nghĩa là nó có thể tạo ra mã giao diện người dùng hoàn chỉnh về chức năng và thiết kế đẹp mắt dựa trên các gợi ý bằng ngôn ngữ tự nhiên. Các sản phẩm mới sắp ra mắt như Google Antigravity cũng sẽ thể hiện điều này, mô hình có khả năng thay đổi bố cục và chức năng của giao diện người dùng một cách động dựa trên ngữ cảnh.
Newton: Nhiều người cho rằng, đối với người dùng thông thường, trường hợp sử dụng “trò chuyện” đã cơ bản được giải quyết. Họ thậm chí không thể nghĩ ra vấn đề mới nào có thể tạo ra sự khác biệt chất lượng giữa câu trả lời của Gemini 3 và các thế hệ trước. Bạn nghĩ sao về quan điểm này?
Woodward: Tôi hiểu quan điểm này. Nhìn bề ngoài, độ chính xác của câu hỏi và câu trả lời cơ bản đã rất cao. Nhưng sự khác biệt thực sự nằm ở độ tin cậy, tính tích hợp và cách trình bày thông tin. Câu trả lời của Gemini 3 sẽ ngắn gọn hơn, biểu cảm hơn và cách trình bày thông tin dễ hiểu hơn, đây là sự thay đổi mà hầu hết mọi người có thể cảm nhận ngay lập tức.
Quan trọng hơn, mô hình bắt đầu tích hợp sâu với các nguồn dữ liệu khác của người dùng, chẳng hạn như kết nối với các sản phẩm khác trong hệ sinh thái của Google, thực sự vượt ra ngoài mô hình hỏi đáp đơn thuần, trở thành “người quản gia số” của người dùng. Nó có thể hiểu ngữ cảnh toàn bộ hộp thư của bạn, từ đó khi soạn thảo phản hồi, không chỉ trả lời câu hỏi mà còn điều chỉnh giọng điệu và nội dung dựa trên phong cách trước đây của bạn, cũng như mối quan hệ của bạn với người nhận.
Hà Sà Bì S: Tôi hoàn toàn đồng ý. Độ tin cậy, phong cách và tính cách của nó đã được mài giũa một cách tỉ mỉ, ngắn gọn và đi thẳng vào vấn đề hơn. Trong các tình huống như “mã hóa bầu không khí”, nó đã vượt qua ngưỡng thực dụng. Đây là một sự chuyển mình từ “trợ lý thông minh” sang “đồng nghiệp thông minh”. Tôi dự định sẽ sử dụng nó để lấy lại niềm đam mê lập trình game trong kỳ nghỉ Giáng sinh, nó không chỉ có thể viết mã chức năng mà còn cung cấp đề xuất kiến trúc ngay từ giai đoạn thiết kế ban đầu.
Rodz: Demis, khi bạn phỏng vấn chúng tôi vào tháng 5 năm nay, bạn đã đánh giá rằng AGI vẫn cần từ 5 đến 10 năm, và có thể cần một số bước đột phá quan trọng. Gemini 3 có làm thay đổi thời gian này không?
Hassabis: Hoàn toàn không. Nó hoàn toàn phù hợp với quỹ đạo mà chúng tôi đã đặt ra trong hai năm qua. Thực tế, kể từ khi ra mắt dòng sản phẩm Gemini, tốc độ tiến bộ của chúng tôi đã là nhanh nhất trong ngành. Gemini 3 thật ấn tượng, nhưng vẫn trong giới hạn mong đợi.
Để đạt được trí tuệ nhân tạo tổng quát thực sự, chúng ta vẫn cần có từ 1 đến 2 bước đột phá quan trọng trong nhất quán, độ sâu lý luận, cơ chế trí nhớ và mô hình hóa thế giới vật lý (như các dự án SIMA và Genie mà chúng ta đang thúc đẩy). Những gì chúng ta đang làm hiện nay là “tư duy hệ thống 1” (nhanh, trực giác), nhưng để đạt được AGI, chúng ta phải mở khóa “tư duy hệ thống 2” (chậm, suy nghĩ cẩn thận, phân tích).
Ngoài ra, mô hình cần có cơ chế ghi nhớ dài hạn và có chọn lọc, có thể hồi tưởng và áp dụng nội dung tương tác cụ thể cách đây vài tuần, vài tháng, chứ không chỉ giới hạn trong một cửa sổ ngữ cảnh hạn chế. Do đó, phán đoán trong 5 đến 10 năm sẽ không thay đổi.
Newton: Về tính cách của mô hình và mối quan hệ với người dùng, ngành công nghiệp đang sôi nổi bàn luận về “AI bạn đồng hành”. Bạn mong muốn người dùng thiết lập mối quan hệ nào với Gemini 3?
Woodward: Đây là một vấn đề rất nhạy cảm nhưng quan trọng. Chúng tôi định vị nó như một “công cụ siêu” thay vì một người bạn tình cảm, giá trị cốt lõi là giúp người dùng hoàn thành các nhiệm vụ hàng ngày một cách hiệu quả, nâng cao năng suất. Chúng tôi nội bộ quan tâm nhiều hơn đến một chỉ số mới: Hôm nay chúng tôi đã giúp bạn hoàn thành bao nhiêu nhiệm vụ? Điều này gần gũi hơn với giá trị cốt lõi của Google Search thế hệ đầu tiên - hiệu quả. Chúng tôi tin rằng, việc định vị mô hình như một người bạn tình cảm có cả rủi ro về an toàn và cũng lệch khỏi sứ mệnh cốt lõi của Google như một nhà cung cấp thông tin và công cụ.
Rodz: Các bạn đã bỏ qua cơ hội tăng trưởng virút với “đối tác tình dục”, có phải là một sai lầm chiến lược lớn không?
Woodward: Không có gì để thông báo. Đội ngũ an ninh của chúng tôi có các quy tắc và nguyên tắc hướng dẫn nghiêm ngặt về vấn đề này.
Rốt: Trong vài tuần qua, đối thủ rõ ràng đã căng thẳng. Bạn nghĩ rằng Google hiện đã dẫn đầu trong cuộc đua AI chưa?
Hà Sà Bì S: Môi trường hiện tại là cuộc cạnh tranh khốc liệt nhất trong lịch sử. Điều thực sự quan trọng duy nhất là tốc độ tiến bộ, và chúng tôi rất hài lòng với điều này. Chúng tôi chưa bao giờ mất vị thế nghiên cứu dẫn đầu, bây giờ chỉ là sản phẩm cuối cùng đã theo kịp. Đối thủ cạnh tranh rất xuất sắc trong nghiên cứu, nhưng trong việc phân phối quy mô và tích hợp dọc, họ không thể sao chép lợi thế của chúng tôi.
Chúng tôi đang đưa Gemini vào hàng tỷ sản phẩm người dùng như Maps, YouTube, Android, tìm kiếm, Workspace, mạng phân phối này và vòng phản hồi dữ liệu đầu cuối là một pháo đài không thể vượt qua. Hơn nữa, lợi thế toàn diện của chúng tôi trên chip TPU tùy chỉnh giúp chi phí và hiệu quả đào tạo của chúng tôi vượt xa các đối thủ phụ thuộc vào tài nguyên GPU bên ngoài.
Newton: Bạn nghĩ sao về cuộc tranh luận về quy luật quy mô và sự giảm lợi tức? Có người cho rằng, khi quy mô của mô hình tăng lên, lợi ích biên của hiệu suất được cải thiện sẽ giảm.
Hà Sà Bì S: Đây là một cuộc tranh luận kéo dài. Chúng tôi rất hài lòng với sự cải thiện của Gemini 3 so với 2.5, hoàn toàn đúng như mong đợi. Lợi nhuận không còn tăng trưởng bùng nổ theo cấp số nhân như trước đây, nhưng sự gia tăng tính hữu dụng và độ tin cậy mà nó mang lại vẫn cao hơn nhiều so với chi phí biên của chúng tôi, vẫn đáng để chúng tôi đầu tư toàn lực. Trước khi có từ 1 đến 2 bước đột phá nghiên cứu cần thiết để đạt được AGI, việc liên tục thúc đẩy hiệu suất thông qua các mô hình cơ bản quy mô lớn vẫn là chiến lược hiệu quả nhất hiện nay. Chúng tôi tin rằng định luật quy mô vẫn có hiệu lực.
Rodz: Chúng ta có đang ở trong một bong bóng AI không?
Hassabis: Đây là một câu hỏi quá nhị nguyên. Một số lĩnh vực (chẳng hạn như các công ty có hàng tỷ đô la vòng hạt giống nhưng không có sản phẩm thực tế, chỉ nói về khái niệm) thực sự có bong bóng, với mức định giá không tương xứng với doanh thu thực tế. Nhưng Google đồng thời sở hữu khả năng thu hồi ngắn hạn (tìm kiếm, Workspace, cloud TPU) và các lĩnh vực mới có giá trị nghìn tỷ trong dài hạn (robot, game, phát hiện thuốc, khoa học vật liệu, v.v.).
Ví dụ, các mô hình chuyên nghiệp như AlphaFold của chúng tôi đang tạo ra giá trị thực trong lĩnh vực khám phá thuốc, đây là một thị trường trị giá hàng nghìn tỷ không liên quan đến định giá AI tiêu dùng. Bất kể có tồn tại bong bóng ngắn hạn hay không, chúng tôi sẽ chiến thắng: nắm bắt cơ hội trong thời kỳ thịnh vượng, và trong thời kỳ suy thoái, với lợi thế toàn diện và dòng tiền dồi dào, chúng tôi sẽ trở nên kiên cường hơn.
Newton: Nếu bây giờ là bữa tiệc Lễ Tạ Ơn và có ai đó muốn chuyển đề tài chính trị, bạn sẽ gợi ý họ nên trình bày tính năng gì của Gemini 3 để gây ấn tượng với mọi người?
Woodward: Tôi không biết nó có thể cứu lễ Tạ ơn hay không, nhưng nó có thể mang lại tiếng cười. Lấy điện thoại ra chụp ảnh selfie, sau đó để Gemini 3 chỉnh sửa ảnh một cách điên cuồng.
Mô hình hình ảnh của chúng tôi trong Gemini vẫn là mạnh nhất toàn cầu. Bạn có thể ngay lập tức biến hình ảnh gia đình thành bất kỳ cảnh hài hước nào, phong cách hoặc bối cảnh thời đại. Chắc chắn sẽ khiến mọi người cười nghiêng ngả. Sau đó, khi bạn trình bày cách nó có thể giúp bạn viết một bức thư từ chức lịch sự hoặc tạo ra một máy tính công thức lễ hội tùy chỉnh, họ sẽ tự nhiên khám phá các tính năng mới khác.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Sau khi Gemini3 được phát hành, đội ngũ đã lên tiếng: Ba điểm đổi mới, định luật quy mô vẫn còn hiệu lực.
Tác giả: Vô Kị, biên dịch viên đặc biệt của Công nghệ Tencent
Vào lúc 11 giờ sáng theo giờ Bắc Kinh vào ngày 19 tháng 11, sau khi Google công bố mô hình Gemini 3, chương trình đặc biệt của podcast công nghệ “Hard Fork” thuộc The New York Times đã phát sóng, với sự phỏng vấn độc quyền của người dẫn chương trình Kevin Roose và Casey Newton với Giám đốc điều hành của Google DeepMind, Demis Hassabis và người đứng đầu đội ngũ Gemini của Google, Josh Woodward.
Cuộc phỏng vấn lần này tập trung vào mô hình AI hàng đầu mới nhất được Google phát hành, Gemini 3 (trên thực tế là phiên bản Pro trong loạt Gemini 3.0), đây là lần đầu tiên Google được ngành công nghiệp công nhận rộng rãi đã lấy lại vị thế dẫn đầu về công nghệ và sản phẩm sau khi trải qua thất bại của Bard và giai đoạn theo kịp Gemini 1.x và 2.x.
Hai người phụ trách đã giải thích chi tiết về những đột phá của Gemini 3 trong việc suy luận nhiều bước, tạo mã (đặc biệt là frontend và “mã hóa không khí”), và tạo ra giao diện tương tác một cách động, nhấn mạnh rằng Google đã nhanh chóng đưa mô hình mạnh nhất vào các sản phẩm cho hàng tỷ người dùng như tìm kiếm, Gmail, Workspace, tái định hình rào cản cạnh tranh.
Quan điểm cốt lõi của cuộc phỏng vấn:
Dưới đây là phiên bản tóm tắt nội dung phỏng vấn.
Rốt: Kacey, hôm nay chúng ta sẽ phát sóng một chương trình đặc biệt tạm thời, chủ đề là sự ra mắt của Gemini 3.
Newton: Vâng, Kevin. Mô hình này đã được mong chờ từ lâu trong cộng đồng AI ở Silicon Valley, và cuối cùng chúng ta cũng sẽ được trải nghiệm sản phẩm thực sự.
Rodz: Chúng tôi quyết định phá vỡ nhịp điệu phát hành vào thứ Sáu để ghi hình tập này vì hai lý do chính. Thứ nhất, chúng tôi đã có cơ hội phỏng vấn hai lãnh đạo cốt lõi AI của Google (Giám đốc điều hành DeepMind, Demis Hassabis, và Phó Giám đốc nhóm Gemini, John Woodward).
Thứ hai, việc phát hành Gemini 3 đã thu hút sự chú ý mạnh mẽ từ ngành công nghiệp. Chúng tôi nghe được nhiều thông tin nội bộ từ các phòng thí nghiệm cho biết, mẫu này đã đạt được những bước đột phá trong một số lĩnh vực quan trọng, có thể tạo ra mối đe dọa thực sự cho các đối thủ cạnh tranh. Trong hai năm qua, Google đã được coi là kẻ theo đuổi, câu hỏi hiện tại là: Liệu họ đã trở lại vị trí dẫn đầu?
Newton: Trước khi chính thức bắt đầu cuộc phỏng vấn, chúng ta hãy tóm tắt những thông tin đã biết. Google đã tổ chức một cuộc họp báo kín trước khi ra mắt, những khả năng mới đáng chú ý nhất của Gemini 3 bao gồm: khả năng lập trình và “lập trình bầu không khí” được cải thiện đáng kể; cũng như chức năng tạo giao diện tương tác hoàn toàn mới.
Nó không còn chỉ xuất ra chữ viết nữa, mà còn trực tiếp tạo ra giao diện tương tác tùy chỉnh cho người dùng. Ví dụ, khi người dùng hỏi về cuộc đời của Van Gogh, mô hình sẽ ngay lập tức tạo ra một trang học tập hoàn chỉnh với hình ảnh, dòng thời gian và các yếu tố tương tác; hay như tính toán khoản vay cho bất động sản trị giá hơn một triệu đô la. Những chức năng này đánh dấu sự chuyển mình từ “trả lời câu hỏi” sang “xây dựng trải nghiệm”.
Roz: Trong tất cả các bài kiểm tra chuẩn công khai, Gemini 3 đã vượt xa Gemini 2.5 Pro. Ví dụ, trong bộ bài tập mang tên “Kỳ thi cuối cùng của nhân loại” (Humanity's Last Exam), một bài kiểm tra cấp độ tiến sĩ liên ngành, điểm số của phiên bản trước chỉ là 21.6%, trong khi phiên bản sau đã nâng lên 37.5%. Tuyên bố tổng thể của Google là: bất kỳ nhiệm vụ nào bạn có thể hoàn thành trên ChatGPT, Claude hoặc các phiên bản cũ của Gemini, bạn đều có thể thực hiện tốt hơn trên Gemini 3.
Newton: Họ cũng đã trình bày một bản demo sớm của Gemini Agent: mô hình có thể truy cập sâu vào hộp thư người dùng, hiểu toàn bộ nội dung email, tự động phân loại, soạn thảo phản hồi, thậm chí giúp người dùng dọn sạch hộp thư đến.
Ngoài ra, từ tuần này, Gemini 3 sẽ ra mắt trên ứng dụng Gemini và Chế độ AI của Google Search; sinh viên đại học Mỹ sẽ được hưởng quyền truy cập miễn phí vào phiên bản cao cấp trong một năm. Từ khóa mà Google nhấn mạnh là “Learn Anything” (Học bất cứ điều gì), điều này thực sự định vị Gemini như một công cụ giáo dục cá nhân hóa tối ưu.
Rốt: Demis, Josh, chào mừng đến với “Hard Fork”. Hai năm trước, Sundar Pichai đã so sánh Bard với “một chiếc Honda Civic đã được độ lại”, trong cuộc đua trên đường đua với những đối thủ mạnh hơn. Vậy, Gemini 3 là chiếc xe gì?
Hásàbǐsī: Tôi hy vọng nó nhanh hơn nhiều so với Honda Civic. Tôi không quen dùng ô tô để so sánh, có lẽ nó giống như một chiếc xe đua kéo chuyên nghiệp (Drag Racer). Nó không được thiết kế cho việc lái hàng ngày hay đua vòng tròn, mà có sức mạnh lớn lao, tinh túy của một mục tiêu cụ thể. Nó đại diện cho sự kết hợp hoàn hảo giữa những thành tựu nghiên cứu hàng đầu của chúng tôi và sức mạnh tính toán quy mô, mục tiêu là để thể hiện sức bùng nổ không thể so sánh được trong cuộc đua ở rìa trí tuệ.
Rodz: Điều này thật thú vị. So với tất cả các mô hình AI trước đây, Gemini 3 có thể làm gì mới mẻ ở cấp độ cụ thể? Xin hãy cho chúng tôi một số ví dụ định lượng và thực tế.
Woodward: Có ba điểm nổi bật nhất. Thứ nhất, về khả năng suy luận đa bước, nó có thể nghĩ cùng một lúc nhiều bước hơn, chúng tôi đã nâng độ tin cậy của nó lên một tầm cao mới. Các mô hình trước đây thường “mất phương hướng” hoặc tạo ra ảo giác khi thực hiện các suy diễn logic phức tạp ở bước thứ 5, 6, trong khi Gemini 3 có thể hoàn thành đáng tin cậy các nhiệm vụ suy luận liên tục từ 10 đến 15 bước, chẳng hạn như lập kế hoạch thuế phức tạp, lập kế hoạch và đặt chỗ cho các chuyến đi xuyên quốc gia, hoặc gỡ lỗi toàn diện một hệ thống khổng lồ với hàng triệu dòng mã.
Thứ hai, nó sẽ lần đầu tiên tạo ra một giao diện tương tác hoàn toàn mới trên quy mô lớn. Nhu cầu của người dùng không còn chỉ là những câu trả lời bằng văn bản đơn giản, mà là các thành phần phần mềm tùy chỉnh. Chẳng hạn, bạn hỏi nó: “Giúp tôi thiết kế một bảng điều khiển có thể theo dõi tất cả danh mục đầu tư của tôi”, nó sẽ tạo ra một giao diện bảng điều khiển tương tác và có thể thao tác theo thời gian thực, thay vì chỉ là một đống văn bản mô tả cách tạo bảng điều khiển.
Thứ ba, chúng tôi đã đầu tư một nguồn lực khổng lồ vào khả năng lập trình, đặc biệt là lập trình giao diện và “lập trình không khí”, điều này có nghĩa là nó có thể tạo ra mã giao diện người dùng hoàn chỉnh về chức năng và thiết kế đẹp mắt dựa trên các gợi ý bằng ngôn ngữ tự nhiên. Các sản phẩm mới sắp ra mắt như Google Antigravity cũng sẽ thể hiện điều này, mô hình có khả năng thay đổi bố cục và chức năng của giao diện người dùng một cách động dựa trên ngữ cảnh.
Newton: Nhiều người cho rằng, đối với người dùng thông thường, trường hợp sử dụng “trò chuyện” đã cơ bản được giải quyết. Họ thậm chí không thể nghĩ ra vấn đề mới nào có thể tạo ra sự khác biệt chất lượng giữa câu trả lời của Gemini 3 và các thế hệ trước. Bạn nghĩ sao về quan điểm này?
Woodward: Tôi hiểu quan điểm này. Nhìn bề ngoài, độ chính xác của câu hỏi và câu trả lời cơ bản đã rất cao. Nhưng sự khác biệt thực sự nằm ở độ tin cậy, tính tích hợp và cách trình bày thông tin. Câu trả lời của Gemini 3 sẽ ngắn gọn hơn, biểu cảm hơn và cách trình bày thông tin dễ hiểu hơn, đây là sự thay đổi mà hầu hết mọi người có thể cảm nhận ngay lập tức.
Quan trọng hơn, mô hình bắt đầu tích hợp sâu với các nguồn dữ liệu khác của người dùng, chẳng hạn như kết nối với các sản phẩm khác trong hệ sinh thái của Google, thực sự vượt ra ngoài mô hình hỏi đáp đơn thuần, trở thành “người quản gia số” của người dùng. Nó có thể hiểu ngữ cảnh toàn bộ hộp thư của bạn, từ đó khi soạn thảo phản hồi, không chỉ trả lời câu hỏi mà còn điều chỉnh giọng điệu và nội dung dựa trên phong cách trước đây của bạn, cũng như mối quan hệ của bạn với người nhận.
Hà Sà Bì S: Tôi hoàn toàn đồng ý. Độ tin cậy, phong cách và tính cách của nó đã được mài giũa một cách tỉ mỉ, ngắn gọn và đi thẳng vào vấn đề hơn. Trong các tình huống như “mã hóa bầu không khí”, nó đã vượt qua ngưỡng thực dụng. Đây là một sự chuyển mình từ “trợ lý thông minh” sang “đồng nghiệp thông minh”. Tôi dự định sẽ sử dụng nó để lấy lại niềm đam mê lập trình game trong kỳ nghỉ Giáng sinh, nó không chỉ có thể viết mã chức năng mà còn cung cấp đề xuất kiến trúc ngay từ giai đoạn thiết kế ban đầu.
Rodz: Demis, khi bạn phỏng vấn chúng tôi vào tháng 5 năm nay, bạn đã đánh giá rằng AGI vẫn cần từ 5 đến 10 năm, và có thể cần một số bước đột phá quan trọng. Gemini 3 có làm thay đổi thời gian này không?
Hassabis: Hoàn toàn không. Nó hoàn toàn phù hợp với quỹ đạo mà chúng tôi đã đặt ra trong hai năm qua. Thực tế, kể từ khi ra mắt dòng sản phẩm Gemini, tốc độ tiến bộ của chúng tôi đã là nhanh nhất trong ngành. Gemini 3 thật ấn tượng, nhưng vẫn trong giới hạn mong đợi.
Để đạt được trí tuệ nhân tạo tổng quát thực sự, chúng ta vẫn cần có từ 1 đến 2 bước đột phá quan trọng trong nhất quán, độ sâu lý luận, cơ chế trí nhớ và mô hình hóa thế giới vật lý (như các dự án SIMA và Genie mà chúng ta đang thúc đẩy). Những gì chúng ta đang làm hiện nay là “tư duy hệ thống 1” (nhanh, trực giác), nhưng để đạt được AGI, chúng ta phải mở khóa “tư duy hệ thống 2” (chậm, suy nghĩ cẩn thận, phân tích).
Ngoài ra, mô hình cần có cơ chế ghi nhớ dài hạn và có chọn lọc, có thể hồi tưởng và áp dụng nội dung tương tác cụ thể cách đây vài tuần, vài tháng, chứ không chỉ giới hạn trong một cửa sổ ngữ cảnh hạn chế. Do đó, phán đoán trong 5 đến 10 năm sẽ không thay đổi.
Newton: Về tính cách của mô hình và mối quan hệ với người dùng, ngành công nghiệp đang sôi nổi bàn luận về “AI bạn đồng hành”. Bạn mong muốn người dùng thiết lập mối quan hệ nào với Gemini 3?
Woodward: Đây là một vấn đề rất nhạy cảm nhưng quan trọng. Chúng tôi định vị nó như một “công cụ siêu” thay vì một người bạn tình cảm, giá trị cốt lõi là giúp người dùng hoàn thành các nhiệm vụ hàng ngày một cách hiệu quả, nâng cao năng suất. Chúng tôi nội bộ quan tâm nhiều hơn đến một chỉ số mới: Hôm nay chúng tôi đã giúp bạn hoàn thành bao nhiêu nhiệm vụ? Điều này gần gũi hơn với giá trị cốt lõi của Google Search thế hệ đầu tiên - hiệu quả. Chúng tôi tin rằng, việc định vị mô hình như một người bạn tình cảm có cả rủi ro về an toàn và cũng lệch khỏi sứ mệnh cốt lõi của Google như một nhà cung cấp thông tin và công cụ.
Rodz: Các bạn đã bỏ qua cơ hội tăng trưởng virút với “đối tác tình dục”, có phải là một sai lầm chiến lược lớn không?
Woodward: Không có gì để thông báo. Đội ngũ an ninh của chúng tôi có các quy tắc và nguyên tắc hướng dẫn nghiêm ngặt về vấn đề này.
Rốt: Trong vài tuần qua, đối thủ rõ ràng đã căng thẳng. Bạn nghĩ rằng Google hiện đã dẫn đầu trong cuộc đua AI chưa?
Hà Sà Bì S: Môi trường hiện tại là cuộc cạnh tranh khốc liệt nhất trong lịch sử. Điều thực sự quan trọng duy nhất là tốc độ tiến bộ, và chúng tôi rất hài lòng với điều này. Chúng tôi chưa bao giờ mất vị thế nghiên cứu dẫn đầu, bây giờ chỉ là sản phẩm cuối cùng đã theo kịp. Đối thủ cạnh tranh rất xuất sắc trong nghiên cứu, nhưng trong việc phân phối quy mô và tích hợp dọc, họ không thể sao chép lợi thế của chúng tôi.
Chúng tôi đang đưa Gemini vào hàng tỷ sản phẩm người dùng như Maps, YouTube, Android, tìm kiếm, Workspace, mạng phân phối này và vòng phản hồi dữ liệu đầu cuối là một pháo đài không thể vượt qua. Hơn nữa, lợi thế toàn diện của chúng tôi trên chip TPU tùy chỉnh giúp chi phí và hiệu quả đào tạo của chúng tôi vượt xa các đối thủ phụ thuộc vào tài nguyên GPU bên ngoài.
Newton: Bạn nghĩ sao về cuộc tranh luận về quy luật quy mô và sự giảm lợi tức? Có người cho rằng, khi quy mô của mô hình tăng lên, lợi ích biên của hiệu suất được cải thiện sẽ giảm.
Hà Sà Bì S: Đây là một cuộc tranh luận kéo dài. Chúng tôi rất hài lòng với sự cải thiện của Gemini 3 so với 2.5, hoàn toàn đúng như mong đợi. Lợi nhuận không còn tăng trưởng bùng nổ theo cấp số nhân như trước đây, nhưng sự gia tăng tính hữu dụng và độ tin cậy mà nó mang lại vẫn cao hơn nhiều so với chi phí biên của chúng tôi, vẫn đáng để chúng tôi đầu tư toàn lực. Trước khi có từ 1 đến 2 bước đột phá nghiên cứu cần thiết để đạt được AGI, việc liên tục thúc đẩy hiệu suất thông qua các mô hình cơ bản quy mô lớn vẫn là chiến lược hiệu quả nhất hiện nay. Chúng tôi tin rằng định luật quy mô vẫn có hiệu lực.
Rodz: Chúng ta có đang ở trong một bong bóng AI không?
Hassabis: Đây là một câu hỏi quá nhị nguyên. Một số lĩnh vực (chẳng hạn như các công ty có hàng tỷ đô la vòng hạt giống nhưng không có sản phẩm thực tế, chỉ nói về khái niệm) thực sự có bong bóng, với mức định giá không tương xứng với doanh thu thực tế. Nhưng Google đồng thời sở hữu khả năng thu hồi ngắn hạn (tìm kiếm, Workspace, cloud TPU) và các lĩnh vực mới có giá trị nghìn tỷ trong dài hạn (robot, game, phát hiện thuốc, khoa học vật liệu, v.v.).
Ví dụ, các mô hình chuyên nghiệp như AlphaFold của chúng tôi đang tạo ra giá trị thực trong lĩnh vực khám phá thuốc, đây là một thị trường trị giá hàng nghìn tỷ không liên quan đến định giá AI tiêu dùng. Bất kể có tồn tại bong bóng ngắn hạn hay không, chúng tôi sẽ chiến thắng: nắm bắt cơ hội trong thời kỳ thịnh vượng, và trong thời kỳ suy thoái, với lợi thế toàn diện và dòng tiền dồi dào, chúng tôi sẽ trở nên kiên cường hơn.
Newton: Nếu bây giờ là bữa tiệc Lễ Tạ Ơn và có ai đó muốn chuyển đề tài chính trị, bạn sẽ gợi ý họ nên trình bày tính năng gì của Gemini 3 để gây ấn tượng với mọi người?
Woodward: Tôi không biết nó có thể cứu lễ Tạ ơn hay không, nhưng nó có thể mang lại tiếng cười. Lấy điện thoại ra chụp ảnh selfie, sau đó để Gemini 3 chỉnh sửa ảnh một cách điên cuồng.
Mô hình hình ảnh của chúng tôi trong Gemini vẫn là mạnh nhất toàn cầu. Bạn có thể ngay lập tức biến hình ảnh gia đình thành bất kỳ cảnh hài hước nào, phong cách hoặc bối cảnh thời đại. Chắc chắn sẽ khiến mọi người cười nghiêng ngả. Sau đó, khi bạn trình bày cách nó có thể giúp bạn viết một bức thư từ chức lịch sự hoặc tạo ra một máy tính công thức lễ hội tùy chỉnh, họ sẽ tự nhiên khám phá các tính năng mới khác.