Mô hình lớn lấn sân sang 2.0 sẽ mang lại những tối ưu, đột phá gì?

Nguyên văn: The Paper, tác giả: Che Xingyun

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Vào tháng 6 năm nay, các nhà sản xuất lớn đã nâng cấp các sản phẩm giống ChatGPT của họ. Vào ngày 9 tháng 6, Xunfei đã ra mắt phiên bản nâng cấp của Mô hình lớn nhận thức Xinghuo; vào ngày 13 tháng 6, sau khi phát hành sản phẩm giống ChatGPT, 360 lại tổ chức Hội nghị ứng dụng mô hình lớn 360 Smart Brain.

Khác với các mẫu lớn được phát hành vào khoảng tháng 2, các sản phẩm nâng cấp do nhiều công ty phát hành gần đây thiên về lớp ứng dụng hơn và mục đích là giúp hàng nghìn hộ gia đình sử dụng dễ dàng hơn.

Đánh giá từ bản phát hành hiện tại, Trí tuệ 360 ban đầu sở hữu khả năng tạo đa phương thức. Ngoài việc tạo văn bản, bảng và hình ảnh từ văn bản; tạo văn bản và hình ảnh từ hình ảnh, tạo văn bản từ video và cắt video từ văn bản và những sáng tạo cơ bản khác Ngoài ra, nó cũng định nghĩa lại "con người kỹ thuật số" để cung cấp cho người dùng "trí tuệ nhân tạo" có thể tùy chỉnh và độc quyền "có linh hồn, thiết kế của con người và trí nhớ".

Hiện tại, kịch bản ứng dụng có khoảng cách gần nhất giữa 360 Smart Brain và người dùng là nhóm gia đình hiện có của 360. Zhou Hongyi cho biết tại cuộc họp báo rằng "360 Smart Brain 4.0" sẽ được kết nối với 360 Security Guard, 360 Browser, 360 Search, v.v. Hợp tác giữa người và máy.

Tại buổi họp báo, Zhou Hongyi đã thay đổi quan điểm trước đây: "Tôi từng nói rằng khoảng cách giữa các mô hình quy mô lớn trong nước và ChatGPT là hai năm, và bây giờ tôi muốn rút lại câu nói này." Mức độ ngang bằng với GPT3.5 và nếu nó phát triển với tốc độ này, nó sẽ bắt kịp hoặc thậm chí vượt qua GPT4 trong nháy mắt.

Trong vòng bốn tháng kể từ khi phát hành phiên bản đầu tiên đến khi phát hành chính thức 360 Smart Brain, Zhou Hongyi có thấy một sự thay đổi lớn như vậy không?

Săn người khổng lồ khoa học công nghệ mô hình lớn

"Báo cáo nghiên cứu bản đồ mô hình quy mô lớn về trí tuệ nhân tạo Trung Quốc" được công bố tại Diễn đàn Zhongguancun 2023 cho thấy hiện tại, các mô hình quy mô lớn về trí tuệ nhân tạo của Trung Quốc đang có xu hướng phát triển mạnh mẽ. Theo thống kê chưa đầy đủ, tính đến thời điểm hiện tại đã có 79 mẫu xe phân khối lớn với thông số trên 1 tỷ đồng được tung ra trên toàn quốc.

Tuy nhiên, thông số của mô hình quy mô lớn của các công ty công nghệ lớn là tương đối lớn: thông số của mô hình lớn Tongyi Qianwen của Alibaba là trên 10 nghìn tỷ, thông số của mô hình lớn Tencent Hunyuan và mô hình lớn Pangu của Huawei đều trên một nghìn tỷ , và mô hình lớn của Baidu Wenxin có tham số hơn một nghìn tỷ, khối lượng tham số của mô hình quy mô lớn là hơn 200 tỷ và khối lượng tham số của mô hình lớn JD Yanxi là 100 tỷ, khối lượng tham số của các công ty công nghệ trong các ngành dọc nói chung là hơn 100 tỷ, và khối lượng tham số của mô hình lớn các tổ chức nghiên cứu khoa học Ở cấp trăm tỷ trở xuống.

Từ góc độ hệ thống bố cục của mô hình lớn, các công ty công nghệ lớn đã thực hiện bố cục toàn diện bốn trong một ở lớp sức mạnh tính toán, lớp nền tảng, lớp mô hình và lớp ứng dụng. Baidu, Ali và Huawei đều có bố cục toàn diện về nghiên cứu và phát triển độc lập từ chip đến ứng dụng, chẳng hạn như "lõi Kunlun + nền tảng mái chèo bay + mô hình lớn Wenxin + ứng dụng công nghiệp" của Baidu, "chip Hanguang 800 + cơ sở M6-OFA" của Ali + Mô hình lớn Tongyi + ứng dụng công nghiệp", "Chip Shengteng + khung MindSpore + mô hình lớn Pangu + ứng dụng công nghiệp" của Huawei.

Ngoài ra, Kingsoft Office cũng đã phát hành WPS AI vào ngày 31 tháng 5. Hiện tại, WPSAI đã được kết nối với các thành phần văn phòng của Kingsoft Office như tài liệu nhẹ, văn bản, bảng biểu, trình chiếu và PDF, trong tương lai sẽ neo AIGC, đọc hiểu , câu hỏi và câu trả lời, tương tác giữa người và máy tính, phát triển theo định hướng chiến lược và tiếp cận toàn bộ dòng sản phẩm Kingsoft Office.

Dòng chảy nhanh chóng của các nhà sản xuất lớn khác nhau vào con đường này chủ yếu là do các cơ quan quản lý nhanh chóng theo dõi và đưa ra các biện pháp để điều chỉnh sự phát triển của ngành.Với sự hộ tống của cấu trúc cấp cao nhất, mỗi nhà sản xuất lớn có thể tự nhiên đầu tư vào nghiên cứu và phát triển và tung ra sản phẩm một cách tự tin.

Kể từ khi mô hình quy mô lớn được tung ra theo đợt vào tháng 3 năm nay, các chính sách quản lý AI đã dần trở nên rõ ràng, điều này cũng đã chỉ ra hướng ứng dụng trong ngành.

Nhìn lại chặng đường phát triển của toàn ngành, ngày 11/4, “Phương pháp quản lý dịch vụ trí tuệ nhân tạo sáng tạo” được đưa ra lấy ý kiến góp ý, ngày 30/5, Viện Công nghệ thông tin và Truyền thông phối hợp xây dựng mô hình trí tuệ nhân tạo mở “Con diều” giấy phép, và bước tiếp theo sẽ là cấp " Giấy phép mô hình trí tuệ nhân tạo mở Zhikite (Dự thảo để lấy ý kiến).

Sau đó, các thành phố cấp một đã cùng nhau đưa ra "Kế hoạch thực hiện để Bắc Kinh đẩy nhanh việc xây dựng nguồn đổi mới trí tuệ nhân tạo có ảnh hưởng toàn cầu (2023-2025)"; Năm)".

Trong bối cảnh đó, Zhou Hongyi tin rằng mô hình lớn trong nước sẽ nhanh chóng thu hẹp khoảng cách với ChatGPT, điều này có vẻ dễ hiểu.

Sự khác biệt giữa 360 Smart Brain

Theo kế hoạch của Zhou Hongyi, mô hình lớn 360 sẽ dựa trên việc nâng cấp liên tục mô hình lớn, có tính đến quá trình tạo cảnh, sản xuất, làm phẳng và dọc hóa.

Theo chiến lược phát triển này, 360 Smart Brain có thể tiếp cận người tiêu dùng (trợ lý AI cá nhân của người dùng), doanh nghiệp vừa và nhỏ (ứng dụng dọc SaaS), doanh nghiệp/chính phủ/thành phố (mô hình triển khai tư nhân hóa), ngành công nghiệp (mô hình ngành dọc) và bốn đối tượng khác. kịch bản ứng dụng chính.

Để đáp ứng tốt hơn nhu cầu của các kịch bản khác nhau nêu trên, mô hình quy mô lớn nói chung cần hoàn thành việc chuyển đổi từ nhập văn bản sang xuất văn bản, hiểu hình ảnh và video và có thể tạo hình ảnh và video trên nền tảng hiện có. cơ sở, tương đương với việc tạo ra mô hình quy mô lớn Với "tai" và "mắt", nó đặt nền tảng cho việc tạo ra một "con người kỹ thuật số".

Con người kỹ thuật số truyền thống chỉ cần xuất ra theo kịch bản đã thiết lập, nhưng trong thời đại của các mô hình quy mô lớn, con người kỹ thuật số 360 có thể được tùy chỉnh, vì vậy con người có thiết kế, trí nhớ và trải nghiệm. Hiện tại, có hơn 200 ký tự trong Nền tảng hình vuông con người kỹ thuật số 360 , được chia thành hai loại: người nổi tiếng kỹ thuật số và nhân viên kỹ thuật số. 360 hy vọng rằng trong tương lai, mọi người sẽ có trợ lý AI của riêng mình và có cơ hội giao tiếp với người cổ đại trong không gian ảo, xuyên thời gian và không gian.

Tại cuộc họp trình diễn, Zhou Hongyi đã hỏi "Gia Cát Lượng" rằng ngày nay nó đã trở thành vật liệu cho yêu ma và động vật như thế nào, và người đàn ông kỹ thuật số đã trả lời bằng giọng điệu của Gia Cát Lượng: số phận của quá khứ và hiện tại là không thể tránh khỏi. Trong tình hình ngày nay, thế giới đang hỗn loạn. Dù đã già nhưng tôi vẫn hướng đến thế giới. Giới trẻ ngày nay lấy tôi làm chất liệu cho ma thú, và tôi sẵn sàng chấp nhận sự thay đổi này. Và chúc các bạn trẻ hãy dũng cảm tiến lên trên con đường phía trước và tạo dựng một tương lai tốt đẹp hơn.

Đồng thời, Zhou Hongyi cũng nhấn mạnh rằng hình thức con người kỹ thuật số trong tương lai cũng sẽ có các mục tiêu, khả năng lập kế hoạch và phân tách riêng, để có thể gọi các mô hình dọc khác nhau để hoàn thành nhiệm vụ.

Tuy nhiên, các chức năng này thực sự là tối ưu hóa dựa trên các ứng dụng mô hình quy mô lớn hiện có và chưa mở ra một lĩnh vực mới. Nhưng trên thực tế, khi mô hình lớn đã tạo ra bước đột phá, kịch bản ứng dụng sáng tạo nhất là lái xe không người lái.

** Lái xe không người lái có cơ hội đi vào làn đường nhanh **

Nhìn lại lĩnh vực lái xe không người lái, kể từ năm 2016, các nhà sản xuất lớn đã triển khai trong lĩnh vực này, nhưng cho đến năm nay, không ai trong số họ có thể đạt được khả năng lái xe không người lái thực sự.

Hiện tại, một hệ thống lái xe không người lái cấp độ L2+ cần hơn 10 camera; 1-2 lidar; hoặc radar sóng 3-5 milimét để cung cấp dữ liệu đa chiều, có thể được sử dụng để đào tạo mô hình sau khi dán nhãn thủ công. Sau khi xuất hiện các mô hình lớn có thể nhận dạng hình ảnh, chi phí thời gian và chi phí vật chất cần thiết cho việc ghi nhãn thủ công sẽ giảm mạnh.

Theo cuộc họp báo Momo Zhixing DriveGPT vào tháng 4 năm 2023, để có được thông tin như vạch làn đường, người tham gia giao thông, đèn giao thông, v.v., chi phí dán nhãn thủ công trong ngành là khoảng 5 nhân dân tệ cho mỗi bức ảnh và chi phí của Momo DriveGPT là 0,5 nhân dân tệ. Chúng tôi tin rằng sau khi quá trình đào tạo mô hình quy mô lớn của các công ty công nghệ hoàn thiện, chi phí cận biên của việc tự động gắn nhãn cho một hình ảnh sẽ tiến tới 0 và chi phí trung bình dự kiến sẽ giảm hơn nữa.

Theo Zhang Peng, phó chủ tịch Dự án Sản phẩm Dữ liệu Kaiwang, vào tháng 2 năm 2023, hiện tại, ghi nhãn thủ công là phương pháp ghi nhãn dữ liệu chính, được bổ sung bằng ghi nhãn bằng máy và 95% ghi nhãn dữ liệu chủ yếu vẫn là thủ công. Sự can thiệp của các mô hình lớn có thể cải thiện đáng kể hiệu quả của ngành công nghiệp này. Lấy Tesla làm ví dụ, nhóm dán nhãn thủ công sẽ có hơn 1.000 người vào năm 2021 và nhóm sẽ sa thải hơn 200 người vào năm 2022.

Ngoài ra, trong thời đại của các mô hình lớn, những gã khổng lồ công nghệ bên thứ ba được kỳ vọng sẽ giúp các OEM xây dựng các thuật toán lái xe tự động và hệ thống vòng kín dữ liệu của riêng họ bằng cách cung cấp một chuỗi công cụ hoàn chỉnh, đồng thời dựa vào khả năng tạo dữ liệu của các mô hình lớn để thu hẹp khoảng cách trong lĩnh vực dữ liệu , kỷ nguyên lái xe tự động của Android dự kiến sẽ đến.

Hiện tại, các mô hình lớn đã được sử dụng để kích hoạt vòng lặp dữ liệu, mô phỏng, thuật toán nhận thức, thuật toán điều tiết và điều khiển và các lĩnh vực khác. Và những gã khổng lồ như Microsoft và Nvidia đang cạnh tranh để bố trí các mẫu xe lớn và xe tự hành, hoặc sẽ tạo ra những tia lửa mới.

Ngoài ra, sự xuất hiện của các mô hình lớn cũng thúc đẩy sự phân công lao động trong ngành, tránh "phát minh lại bánh xe" và tăng tốc độ lặp lại của cảm biến và chip, đồng thời chi phí hệ thống dự kiến sẽ giảm đáng kể. Các nhà phát triển mô hình quy mô lớn và những người tham gia trong chuỗi ngành công nghiệp lái xe tự hành dự kiến sẽ được hưởng lợi một cách toàn diện.

Lấy Baidu Apollo làm ví dụ, trước tiên, nó sử dụng thông tin đồ họa để huấn luyện trước một mô hình ban đầu, sử dụng thuật toán để xác định, định vị và phân đoạn dữ liệu hình ảnh chế độ xem phố và đưa chúng vào bộ mã hóa để tạo thành một thư viện cơ sở, tức là thiết lập một sự tương ứng giữa hình ảnh và thông tin văn bản dựa trên nhóm dữ liệu chế độ xem phố.

Thứ hai, có thể tìm kiếm và khai thác các cảnh cụ thể (chẳng hạn như xe tốc hành, xe lăn, trẻ em, v.v.) thông qua văn bản và hình ảnh, đồng thời tiến hành đào tạo tùy chỉnh trên mô hình phía xe, giúp cải thiện đáng kể hiệu quả sử dụng dữ liệu chứng khoán.

Baidu sử dụng phương pháp bán giám sát để tận dụng tối đa dữ liệu 2D và 3D để đào tạo một mô hình nhận thức lớn. Bằng cách chắt lọc mô hình nhỏ theo nhiều bước, hiệu suất của mô hình nhỏ được cải thiện, đồng thời, mô hình nhỏ được tùy chỉnh để đào tạo thông qua ghi nhãn tự động, được sử dụng để nâng cao khả năng nhận thức 3D trực quan ở khoảng cách xa và cải thiện hiệu ứng nhận thức của mô hình nhận thức đa phương thức.

Một người chơi hàng đầu khác, SenseTime, cũng tuyên bố công khai rằng AIGC có thể được sử dụng để tạo cảnh giao thông thực và các mẫu khó để đào tạo hệ thống lái xe tự động và dữ liệu đa phương thức có thể được sử dụng làm đầu vào của mô hình lớn để cải thiện giới hạn trên của nhận thức của hệ thống về các cảnh trong góc. .

Đồng thời, mô hình lái xe tự động lớn đa phương thức có thể nhận ra sự tích hợp tích hợp của nhận thức và ra quyết định, và môi trường 3D có thể được tái tạo thông qua bộ giải mã môi trường ở đầu ra để nhận ra sự hiểu biết trực quan về môi trường; bộ giải mã hành vi có thể tạo ra một kế hoạch đường đi hoàn chỉnh; bộ giải mã động lực có thể được sử dụng Ngôn ngữ tự nhiên mô tả quá trình suy luận, làm cho hệ thống lái xe tự hành an toàn hơn và đáng tin cậy hơn.

Sau khi mô hình lớn nhận ra các chức năng trên, ngưỡng lái xe không người lái sẽ ngày càng thấp hơn trong tương lai. đường ngoài điều hướng đường. Theo dõi chức năng lập kế hoạch, chẳng hạn như tối ưu hóa hơn nữa việc lập kế hoạch đường đi của robot quét.

Nhìn vào hiện tại, sau khi trải qua giai đoạn phát hành tập trung các mô hình lớn từ tháng 2 đến tháng 3 và giai đoạn phát triển sản phẩm và định hướng chính sách từ tháng 4 đến tháng 5, tháng 6 đã bước vào giai đoạn phát hành tập trung các sản phẩm và ứng dụng mô hình lớn AI. .Điều này cũng trực tiếp dẫn đến việc giảm giá OpenAI API.

Trong tương lai gần, công nghệ AI sẽ tiếp tục lặp đi lặp lại và các ứng dụng sẽ tiếp tục phát triển, đồng thời ngày càng có nhiều công ty công nghệ lớn tung ra các sản phẩm đi theo con đường này, điều này sẽ tiếp tục thúc đẩy sự thịnh vượng của ngành và mang lại nhiều hơn nữa lợi ích cho người dùng.Các sản phẩm giống GPT đáp ứng nhu cầu thị trường, chẳng hạn như Tencent, công ty có lượng người dùng khổng lồ, cũng đã phát hành một giải pháp kỹ thuật trong lĩnh vực mô hình lớn vào ngày 19 tháng 6.

Khi các công ty này kết hợp với nhau, sự phát triển của ngành sẽ đi vào làn đường nhanh chóng, và điều đó cũng có nghĩa là người dùng cuối C sẽ sớm có thể sử dụng sản phẩm này, về việc ai sẽ trả tiền cho nó, mỗi nhà sản xuất cần dựa vào công ty của mình. khả năng của chính mình.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)