Không phải là mô hình lớn hơi quá sao?

Nguồn gốc: Yuanchuan Science and Technology Review

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Tháng trước, một "cuộc chiến động vật" đã nổ ra trong ngành công nghiệp AI.

Một bên là Llama (llama) của Meta, vốn có lịch sử phổ biến với cộng đồng nhà phát triển do tính chất nguồn mở của nó. Sau khi nghiên cứu kỹ bài báo Llama và mã nguồn, NEC nhanh chóng "độc lập" phát triển phiên bản ChatGPT tiếng Nhật, giúp Nhật Bản giải bài toán cổ AI.

** Ở phía bên kia là một mô hình lớn được gọi là Falcon (Falcon). ** Vào tháng Năm năm nay, Falcon-40B đã được ra mắt, đánh bại lạc đà không bướu để xếp hạng "LLM nguồn mở (Mô hình ngôn ngữ lớn)".

Danh sách, được sản xuất bởi Hugging face, một cộng đồng mô hình nguồn mở, cung cấp một bộ tiêu chí để đo lường khả năng của LLM và xếp hạng chúng. Bảng xếp hạng về cơ bản là Llama và Falcon thay phiên nhau cuộn qua các bảng xếp hạng.

Sau khi ra mắt Llama 2, gia đình lạc đà không bướu đã lấy lại một thành phố; Nhưng vào đầu tháng 9, Falcon đã ra mắt phiên bản 180B, một lần nữa đạt được thứ hạng cao hơn.

Falcon đè bẹp Llama 2 với 68,74 điểm

Thật thú vị, nhà phát triển của "Falcon" không phải là một công ty công nghệ, mà là Viện Đổi mới Khoa học và Công nghệ có trụ sở tại Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất. Các nguồn tin chính phủ cho biết: "Chúng tôi tham gia vào trò chơi này để lật đổ những người chơi cốt lõi".[4] 。

Một ngày sau khi phát hành phiên bản 180B, Bộ trưởng Bộ Trí tuệ nhân tạo UAE Omar đã được Tạp chí Time chọn là một trong "100 người có ảnh hưởng nhất trong lĩnh vực AI"; Cùng với gương mặt Trung Đông này là "Bố già của AI" Hinton, Altman của OpenAI và Robin Li.

Bộ trưởng Bộ Trí tuệ nhân tạo UAE

Ngày nay, lĩnh vực AI đã bước vào giai đoạn "nhảy nhóm": tất cả các quốc gia và doanh nghiệp có ít tiềm lực tài chính đều có ít nhiều kế hoạch tạo ra một "phiên bản quốc gia XX của ChatGPT". Chỉ riêng vùng Vịnh đã có nhiều hơn một người chơi trong vòng tròn vùng Vịnh - Ả Rập Xê Út vừa mua hơn 3.000 H100 cho các trường đại học của mình vào tháng 8 để đào tạo LLM.

Zhu Xiaohu, một quỹ đầu tư mạo hiểm của GSR River, từng phàn nàn trong vòng tròn bạn bè: "Hồi đó, tôi coi thường sự đổi mới mô hình kinh doanh (của Internet) và cảm thấy rằng không có rào cản: một trăm cuộc chiến trung đoàn, một trăm cuộc chiến xe hơi, một trăm cuộc chiến phát sóng; Không ngờ rằng khởi nghiệp mô hình lớn công nghệ cứng vẫn là một cuộc chiến trăm mẫu..."

Làm thế nào công nghệ cứng có độ khó cao được cho là một quốc gia có thể sản xuất 100.000 catties mỗi mu?

Biến áp nuốt chửng thế giới

Các công ty khởi nghiệp Mỹ, những gã khổng lồ công nghệ của Trung Quốc và các ông trùm dầu mỏ Trung Đông đã có thể mơ về những mô hình lớn nhờ bài báo nổi tiếng: "Chú ý là tất cả những gì bạn cần".

Năm 2017, 8 nhà khoa học máy tính của Google đã tiết lộ thuật toán Transformer với thế giới trong bài báo này. Bài báo này hiện là bài báo được trích dẫn nhiều thứ ba trong lịch sử trí tuệ nhân tạo và sự xuất hiện của Transformer đã kích hoạt vòng bùng nổ trí tuệ nhân tạo này.

Bất kể quốc tịch nào, các mô hình lớn hiện tại, bao gồm cả dòng GPT làm rung chuyển thế giới, đứng trên vai của Transformer.

Trước đó, "dạy máy đọc" là một vấn đề học thuật được công nhận. Khác với nhận dạng hình ảnh, khi con người đọc văn bản, họ sẽ không chỉ chú ý đến các từ và câu mà họ hiện đang nhìn thấy mà còn hiểu chúng trong ngữ cảnh.

Ví dụ, từ "Transformer" thực sự có thể được dịch là "Transformer", nhưng độc giả của bài viết này chắc chắn sẽ không hiểu nó theo cách này, bởi vì mọi người đều biết rằng đây không phải là một bài viết về phim Hollywood. **

Tuy nhiên, trong những năm đầu, đầu vào của các mạng thần kinh độc lập với nhau và chúng không có khả năng hiểu một đoạn văn bản lớn hoặc thậm chí toàn bộ bài viết, vì vậy vấn đề dịch "phòng nước sôi" thành "phòng nước mở" nảy sinh.

Mãi đến năm 2014, Ilya Sutskever, một nhà khoa học máy tính làm việc tại Google và sau đó chuyển sang OpenAI, là người đầu tiên tạo ra kết quả. Ông đã sử dụng các mạng thần kinh tái phát (RNN) để xử lý ngôn ngữ tự nhiên, nhanh chóng đưa hiệu suất của Google Dịch khác biệt so với đối thủ.

RNN đề xuất một "thiết kế vòng lặp", để mỗi tế bào thần kinh chấp nhận cả thông tin đầu vào của thời điểm hiện tại và thông tin đầu vào của thời điểm trước đó, để mạng lưới thần kinh có khả năng "kết hợp ngữ cảnh".

Mạng lưới thần kinh tái phát

Sự xuất hiện của RNN đã khơi dậy niềm đam mê nghiên cứu trong giới học thuật, và Noam Shazeer, tác giả của bài báo Transformer cũng nghiện nó. Tuy nhiên, các nhà phát triển nhanh chóng nhận ra rằng RNN có một lỗ hổng nghiêm trọng:

**Thuật toán sử dụng các phép tính tuần tự, có thể giải quyết vấn đề về ngữ cảnh, nhưng nó không hiệu quả và khó xử lý một số lượng lớn các tham số. **

Thiết kế cồng kềnh của RNN nhanh chóng mang Shazel. Vì vậy, kể từ năm 2015, Shazel và 7 người bạn đã phát triển các lựa chọn thay thế cho RNN, và kết quả là Transformer[8] 。

Noam Shazeer

So với RNN, sự biến đổi của Transformer có hai điểm:

Đầu tiên, thiết kế vòng lặp của RNN được thay thế bằng mã hóa vị trí, từ đó hiện thực hóa tính toán song song - sự thay đổi này cải thiện đáng kể hiệu quả đào tạo của Transformer, do đó có thể xử lý dữ liệu lớn, đẩy AI đến kỷ nguyên của các mô hình lớn; Thứ hai, khả năng tăng cường hơn nữa bối cảnh đã được tăng cường hơn nữa.

Khi Transformer giải quyết được nhiều khiếm khuyết trong một lần, nó dần phát triển thành giải pháp duy nhất cho NLP (xử lý ngôn ngữ tự nhiên), có ý nghĩa "Transformer không được sinh ra trong tự nhiên, NLP giống như một đêm dài". Ngay cả Ilya cũng từ bỏ RNN, vốn đang cầm bàn thờ bằng tay của chính mình, và chuyển sang Transformer.

Nói cách khác, Transformer là ông tổ của tất cả các mô hình lớn ngày nay, bởi vì ông đã biến mô hình lớn từ một vấn đề nghiên cứu lý thuyết thành một vấn đề kỹ thuật thuần túy. **

[9]Sơ đồ cây phát triển công nghệ LLM, gốc cây màu xám là Máy biến áp

Năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, điều từng gây bất ngờ cho giới học thuật. Đáp lại, Google nhanh chóng tung ra một AI mạnh mẽ hơn có tên Meena.

So với GPT-2, Meena không có sự đổi mới thuật toán cơ bản, nhưng các thông số đào tạo gấp 8,5 lần và sức mạnh tính toán gấp 14 lần so với GPT-2. Shazel, tác giả của bài báo Transformer đã bị sốc bởi "đống bạo lực" đến nỗi ông đã viết một bản ghi nhớ ngay tại chỗ "Meena nuốt chửng thế giới".

Sự ra đời của Transformer đã làm chậm đáng kể sự đổi mới của các thuật toán cơ bản trong giới học thuật. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô sức mạnh tính toán và kiến trúc mô hình ngày càng trở thành người chiến thắng và kẻ thua cuộc quan trọng trong cuộc cạnh tranh AI, và miễn là các công ty công nghệ có một số khả năng kỹ thuật có thể chà xát một mô hình lớn bằng tay.

Do đó, khi nhà khoa học máy tính Andrew Ng phát biểu tại Đại học Stanford, ông đã đề cập đến một điểm: "AI là một tập hợp các công cụ, bao gồm học tập có giám sát, học không giám sát, học tăng cường và bây giờ là trí tuệ nhân tạo tạo sinh". Tất cả đều là những công nghệ có mục đích chung, tương tự như các công nghệ đa năng khác như điện và internet.[10] "

OpenAI vẫn là đầu tàu của LLM, nhưng công ty phân tích chất bán dẫn Semi Analysis tin rằng khả năng cạnh tranh của GPT-4 đến từ các giải pháp kỹ thuật – nếu nguồn mở, bất kỳ đối thủ cạnh tranh nào cũng có thể nhanh chóng sao chép.

Nhà phân tích dự đoán rằng có thể không lâu nữa trước khi các công ty công nghệ lớn khác có thể tạo ra các mô hình lớn với hiệu suất tương tự như GPT-4[11] 。

** Hào xây trên kính**

Hiện nay, "cuộc chiến trăm mẫu" không còn là một công cụ hùng biện, mà là một thực tế khách quan.

Các báo cáo liên quan cho thấy tính đến tháng 7 năm nay, số lượng mẫu xe lớn trong nước đã lên tới 130, cao hơn con số 114 ở Mỹ, thành công vượt góc, và nhiều huyền thoại và truyền thuyết khác nhau gần như không đủ để các công ty công nghệ trong nước lấy tên[12] 。

Ngoài Trung Quốc và Hoa Kỳ, một số quốc gia giàu có hơn cũng đã bước đầu đạt được "một quốc gia, một mô hình":* * Ngoài Nhật Bản và Các Tiểu vương quốc Ả Rập Thống nhất, còn có mô hình lớn Bhashini do chính phủ Ấn Độ lãnh đạo, HyperClova X của công ty Internet Hàn Quốc Naver, v.v. **

Cuộc chiến trước mắt chúng ta dường như đã trở lại kỷ nguyên tiên phong của Internet, nơi bong bóng và "khả năng tiền giấy" bị bắn phá.

Như đã đề cập trước đó, Transformer biến các mô hình lớn thành các vấn đề kỹ thuật thuần túy, miễn là ai đó có tiền và card đồ họa, phần còn lại sẽ bị mất các thông số. Tuy nhiên, mặc dù tấm vé vào cửa không khó để có được, nhưng điều đó không có nghĩa là ai cũng có cơ hội trở thành BAT trong kỷ nguyên AI.

"Cuộc chiến động vật" được đề cập ở phần đầu là một trường hợp điển hình: mặc dù Falcon đã đánh bại lạc đà không bướu trong bảng xếp hạng, nhưng rất khó để nói nó đã có tác động như thế nào đến Meta. **

Như chúng ta đã biết, các doanh nghiệp mở nguồn kết quả nghiên cứu khoa học của riêng họ, không chỉ để chia sẻ sự thịnh vượng của khoa học và công nghệ với công chúng, mà còn để huy động trí tuệ của người dân. Khi các giáo sư đại học, tổ chức nghiên cứu và doanh nghiệp vừa và nhỏ tiếp tục sử dụng và cải tiến Llama, Meta có thể áp dụng những kết quả này vào các sản phẩm của chính mình.

**Đối với mô hình nguồn mở, một cộng đồng nhà phát triển tích cực là năng lực cốt lõi của nó. **

Ngay từ năm 2015, khi AI Lab được thành lập, Meta đã thiết lập giai điệu chính của nguồn mở; Zuckerberg cũng kiếm được tài sản của mình trong lĩnh vực kinh doanh truyền thông xã hội và anh ấy rất thành thạo trong vấn đề "làm tốt công việc quan hệ công chúng".

Ví dụ, vào tháng 10, Meta đã phát động chiến dịch "Khuyến khích người sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục và môi trường sẽ có cơ hội nhận được 500.000 USD tài trợ.

Ngày nay, dòng Llama của Meta là cánh quạt của LLM mã nguồn mở.

Tính đến đầu tháng 10, tổng cộng 8 trong số 10 danh sách LLM nguồn mở hàng đầu của Hugging face dựa trên Llama 2 và sử dụng giấy phép nguồn mở của nó. Chỉ riêng trên Hugging face, đã có hơn 1.500 LLM sử dụng giao thức mã nguồn mở Llama 2[13] 。

Tính đến đầu tháng 10, LLM số một trên khuôn mặt ôm dựa trên Llama 2

Tất nhiên, việc cải thiện hiệu suất như Falcon là ổn, nhưng cho đến ngày nay, hầu hết các LLM trên thị trường vẫn có khoảng cách hiệu suất rõ ràng với GPT-4.

Ví dụ, một ngày khác, GPT-4 đứng đầu bài kiểm tra AgentBench với số điểm 4,41. Tiêu chuẩn AgentBench được phối hợp đưa ra bởi Đại học Thanh Hoa, Đại học Bang Ohio và Đại học California, Berkeley, để đánh giá khả năng suy luận và khả năng ra quyết định của LLM trong môi trường thế hệ mở đa chiều, bao gồm các tác vụ trong 8 môi trường khác nhau như hệ điều hành, cơ sở dữ liệu, sơ đồ tri thức và trận chiến thẻ.

Kết quả kiểm tra cho thấy Claude, người về nhì, chỉ có 2,77 điểm, và khoảng cách vẫn còn rõ ràng. Đối với những LLM mã nguồn mở khổng lồ đó, điểm kiểm tra của họ dao động quanh mức 1 điểm, ít hơn 1/4 GPT-4[14] 。

Kết quả kiểm tra AgentBench

Bạn biết đấy, GPT-4 đã được phát hành vào tháng 3 năm nay, đây vẫn là kết quả sau khi các đồng nghiệp toàn cầu đã bắt kịp hơn nửa năm. Điều gây ra khoảng cách này là kinh nghiệm được tích lũy bởi đội ngũ các nhà khoa học của OpenAI với "mật độ IQ" cao và LLM nghiên cứu dài hạn, vì vậy nó luôn có thể vượt xa.

Nói cách khác, khả năng cốt lõi của mô hình lớn không phải là một tham số, mà là việc xây dựng hệ sinh thái (nguồn mở) hoặc khả năng lý luận thuần túy (nguồn đóng). **

Khi cộng đồng nguồn mở trở nên tích cực hơn, hiệu suất của LLM có thể hội tụ vì tất cả chúng đều sử dụng kiến trúc mô hình tương tự và các tập dữ liệu tương tự.

Một câu hỏi hóc búa khác trực quan hơn: ngoài Midjourney, dường như không có người mẫu lớn nào kiếm được tiền.

Neo giá trị

Vào tháng 8 năm nay, một bài báo gây tò mò có tiêu đề "OpenAI có thể phá sản vào cuối năm 2024" đã thu hút rất nhiều sự chú ý[16] 。 Lực đẩy chính của bài viết có thể tóm tắt gần như trong một câu: OpenAI đốt tiền quá nhanh. **

Bài báo đề cập rằng kể từ khi ChatGPT phát triển, khoản lỗ của OpenAI đang mở rộng nhanh chóng, mất khoảng 540 triệu USD chỉ trong năm 2022 và chỉ có thể chờ các nhà đầu tư của Microsoft thanh toán.

Mặc dù tiêu đề của bài viết là giật gân, nhưng nó cũng nói lên tình hình hiện tại của nhiều nhà cung cấp mô hình lớn: ** Có sự mất cân bằng nghiêm trọng giữa chi phí và doanh thu. **

Chi phí quá cao, dẫn đến sự phụ thuộc hiện tại vào trí tuệ nhân tạo để kiếm được nhiều tiền chỉ NVIDIA, nhiều nhất là thêm một Broadcom.

Theo công ty tư vấn Omdia, Nvidia đã bán được hơn 300.000 chiếc H100 trong quý II năm nay. Đây là con chip AI, hiệu quả đào tạo AI cực cao, các công ty công nghệ, tổ chức nghiên cứu khoa học trên thế giới đang bắt chốt. Nếu 300.000 chiếc H100 được bán ra được xếp chồng lên nhau, chúng sẽ nặng tương đương với 4,5 máy bay Boeing 747[18] 。

Hiệu suất của Nvidia cũng cất cánh, tăng vọt 854% doanh thu hàng năm, điều từng gây sốc cho Phố Wall. Nhân tiện, giá hiện tại của H100 trên thị trường đồ cũ đã được suy đoán là 40.000-50.000 đô la, nhưng chi phí vật liệu của nó chỉ khoảng 3.000 đô la.

Chi phí cao của sức mạnh tính toán đã trở thành một lực cản đối với sự phát triển của ngành công nghiệp ở một mức độ nào đó. Sequoia Capital đã thực hiện một tính toán: ** Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; Ngược lại, các mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ đô la một năm, với khoảng cách ít nhất là 125 tỷ đô la[17] 。 **

Jensen Huang với H100

Ngoài ra, với một vài ngoại lệ như Midjourney, hầu hết các công ty phần mềm vẫn chưa tìm ra cách kiếm tiền sau khi trả chi phí rất lớn. Đặc biệt, hai ông lớn hàng đầu trong ngành là Microsoft và Adobe đã vấp ngã đôi chút.

Microsoft và OpenAI đã hợp tác để phát triển một công cụ tạo mã AI, GitHub Copilot, tính phí 10 đô la một tháng, nhưng do chi phí cơ sở vật chất, Microsoft mất 20 đô la và người dùng nặng thậm chí có thể khiến Microsoft trả 80 đô la một tháng. Dựa trên suy đoán này, Microsoft 365 Copilot giá 30 đô la không phải là một khoản lỗ.

Thật trùng hợp, Adobe vừa cho ra mắt công cụ Firefly AI cũng nhanh chóng tung ra hệ thống điểm hỗ trợ ngăn người dùng sử dụng nhiều và khiến công ty thua lỗ. Khi người dùng sử dụng nhiều hơn số tín dụng được phân bổ mỗi tháng, Adobe sẽ làm chậm dịch vụ.

Bạn phải biết rằng Microsoft và Adobe đã là những gã khổng lồ phần mềm với kịch bản kinh doanh rõ ràng và một số lượng lớn người dùng trả tiền sẵn sàng. Hầu hết các thông số được xếp chồng lên nhau trên bầu trời và kịch bản ứng dụng lớn nhất là trò chuyện.

Không thể phủ nhận rằng nếu không có sự xuất hiện của OpenAI và ChatGPT, cuộc cách mạng AI này có thể đã không xảy ra; Nhưng hiện tại, giá trị của việc đào tạo các mô hình lớn có thể là một dấu hỏi.

Hơn nữa, khi cạnh tranh đồng nhất hóa tăng cường và ngày càng có nhiều mô hình nguồn mở trên thị trường, có thể có ít chỗ hơn cho các nhà cung cấp mô hình lớn đơn giản.

Sự phổ biến của iPhone 4 không phải vì bộ vi xử lý A4 45nm, mà vì nó có thể chơi Plants vs. Zombies và Angry Birds.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)