掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

Transformer 創造者警告:AI 被困原始架構,黃仁勳促七作者破局

2017 年,論文《Attention is All You Need》橫空出世,首次引入基於自註意力機制的 Transformer 模型,擺脫傳統 RNN 和 CNN 束縛,透過平行處理有效克服長距離依賴難題。2024 年 GTC 大會,Nvidia 執行長黃仁勳邀請 Transformer 七位作者集體亮相。

Transformer 起源於機器翻譯的效率困境

Trasnformer七作者集體亮相

(來源:NVIDIA)

黃仁勳詢問當初遇到了什麼問題,是什麼啟發團隊創造 Transformer。Illia Polosukhin 回應:「如果你想要發布能夠真正讀取搜尋結果的模型,例如處理成堆的文檔,你需要一些能夠迅速處理這些資訊的模型。當時的遞歸神經網路(RNN)並不能滿足這樣的需求。」

Jakob Uszkoreit 補充:「我們產生訓練資料的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構,例如以 n-gram 作為輸入特徵的前饋網路。這些架構至少在 Google 規模的大量訓練資料中,由於訓練速度更快,通常都能超越那些更複雜、更先進的模型。」

Noam Shazeer 提供了關鍵洞察:「看起來這是一個亟待解決的問題。我們在 2015 年左右就已經開始注意到這些 Scaling law,你可以看到隨著模型規模的增大,它的智慧程度也隨之提高。而一個巨大的挫敗感在於,RNN 處理起來實在是太麻煩了。然後我偶然聽到這些傢伙在討論,嘿,讓我們用卷積或註意力機制來取代它。我心想,太好了,我們就這麼做。我喜歡把 Transformer 比喻為是從蒸汽機到內燃機的飛躍。我們本來可以用蒸汽機完成工業革命,但那將會非常痛苦,而內燃機讓一切都變得更好。」

Transformer 解決的三大核心問題

並行處理:擺脫 RNN 的順序處理限制,實現真正的平行計算

長距離依賴:通過自註意力機制有效捕捉遠距離詞彙間的關係

訓練效率:大幅提升模型訓練速度,使大規模預訓練成為可能

這些技術突破使 Transformer 成為現代 AI 的基石。ChatGPT、BERT、GPT-4 等大型語言模型都基於 Transformer 架構。然而,七年後,創造者們認為是時候突破了。

被困在原始模型的效率困境

Aidan Gomez 坦言:「我認為這個世界需要比 Transformer 更好的東西,我想我們在座的所有人都希望它能被某種東西所取代,將我們帶到一個新的性能高原。」Llion Jones 補充:「我們被困在原始模型上,儘管從技術上講,它可能不是我們現在擁有的最強大的東西。但是每個人都知道自己想要什麼樣的個人工具,你們想做更好的上下文窗口,你們想要更快產生 token 的生成能力。他們現在使用了太多的計算資源。我認為大家做了很多浪費的計算。」

Jakob Uszkoreit 指出核心問題:「但我覺得這主要是關於如何分配資源,而不是總共消耗了多少資源。例如我們不希望在一個容易的問題上花太多錢,或是在一個太難的問題上花太少而最終得不到解決方案。」

Illia Polosukhin 提供了生動的例子:「這個例子就像 2+2,如果你正確地將他輸入到這個模型中,它就會使用一兆個參數。所以我認為自適應計算是接下來必須出現的事情之一,我們知道在特定問題上應該花費多少計算資源。」這個批評揭示了當前 AI 模型的根本缺陷:缺乏自適應性,對簡單和複雜問題投入相同的計算資源,造成巨大浪費。

Noam Shazeer 從經濟角度分析:「我認為目前的模型太過經濟實惠,規模也還太小。每次操作的計算成本大約是 10 到 18 美元。如果你觀察一個擁有五千億參數的模型,並且每個 token 進行一萬億次計算,大概是一美元百萬 token,這比外出購買一本平裝書並閱讀的成本要便宜 100 倍。」這個觀點反常識但深刻:AI 目前太便宜了,導致人們濫用而非珍惜計算資源。

未來方向:自適應計算與推理能力

Lukasz Kaiser 揭示了一個重要事實:「我們在最初的目標上並沒有成功,我們開始 Transformer 的初衷是想要模擬 Token 的演化過程。它不僅僅是線性的生成過程,而是文字或程式碼的逐步演化。」這個坦承顯示 Transformer 雖然成功,但並未完全實現創造者的願景。

Jakob Uszkoreit 指出下一步方向:「下一步是推理。我們都體認到了推理的重要性,但許多工作目前還是由工程師手工完成的。我們希望模型能夠產生我們想要的內容,無論是影片、文字或 3D 訊息,它們都應該被整合在一起。」這暗示未來的 AI 架構需要更強的推理能力和多模態整合。

Aidan Gomez 補充:「我們能否實現多任務、多線的並行。如果你真的想建立這樣一個模型,幫助我們設計這樣一個模型,這是一個非常好的方式。」Lukasz Kaiser 認為:「推理實際上是來自於數據,我們需要讓數據更充實。」這些討論指向了 Transformer 之後 AI 架構的幾個關鍵方向:自適應計算、增強推理、多模態融合和更高效的數據利用。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)