Transformer 創造者警告：AI 被困原始架構，黃仁勳促七作者破局

2025-11-17 07:11:13

2017 年，論文《Attention is All You Need》橫空出世，首次引入基於自註意力機制的 Transformer 模型，擺脫傳統 RNN 和 CNN 束縛，透過平行處理有效克服長距離依賴難題。2024 年 GTC 大會，Nvidia 執行長黃仁勳邀請 Transformer 七位作者集體亮相。

Transformer 起源於機器翻譯的效率困境

（來源：NVIDIA）

黃仁勳詢問當初遇到了什麼問題，是什麼啟發團隊創造 Transformer。Illia Polosukhin 回應：「如果你想要發布能夠真正讀取搜尋結果的模型，例如處理成堆的文檔，你需要一些能夠迅速處理這些資訊的模型。當時的遞歸神經網路（RNN）並不能滿足這樣的需求。」

Jakob Uszkoreit 補充：「我們產生訓練資料的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構，例如以 n-gram 作為輸入特徵的前饋網路。這些架構至少在 Google 規模的大量訓練資料中，由於訓練速度更快,通常都能超越那些更複雜、更先進的模型。」

Noam Shazeer 提供了關鍵洞察：「看起來這是一個亟待解決的問題。我們在 2015 年左右就已經開始注意到這些 Scaling law，你可以看到隨著模型規模的增大，它的智慧程度也隨之提高。而一個巨大的挫敗感在於，RNN 處理起來實在是太麻煩了。然後我偶然聽到這些傢伙在討論，嘿，讓我們用卷積或註意力機制來取代它。我心想，太好了，我們就這麼做。我喜歡把 Transformer 比喻為是從蒸汽機到內燃機的飛躍。我們本來可以用蒸汽機完成工業革命，但那將會非常痛苦，而內燃機讓一切都變得更好。」

Transformer 解決的三大核心問題

並行處理：擺脫 RNN 的順序處理限制，實現真正的平行計算

長距離依賴：通過自註意力機制有效捕捉遠距離詞彙間的關係

訓練效率：大幅提升模型訓練速度，使大規模預訓練成為可能

這些技術突破使 Transformer 成為現代 AI 的基石。ChatGPT、BERT、GPT-4 等大型語言模型都基於 Transformer 架構。然而，七年後，創造者們認為是時候突破了。

被困在原始模型的效率困境

Aidan Gomez 坦言：「我認為這個世界需要比 Transformer 更好的東西，我想我們在座的所有人都希望它能被某種東西所取代，將我們帶到一個新的性能高原。」Llion Jones 補充：「我們被困在原始模型上，儘管從技術上講，它可能不是我們現在擁有的最強大的東西。但是每個人都知道自己想要什麼樣的個人工具，你們想做更好的上下文窗口，你們想要更快產生 token 的生成能力。他們現在使用了太多的計算資源。我認為大家做了很多浪費的計算。」

Jakob Uszkoreit 指出核心問題：「但我覺得這主要是關於如何分配資源，而不是總共消耗了多少資源。例如我們不希望在一個容易的問題上花太多錢，或是在一個太難的問題上花太少而最終得不到解決方案。」

Illia Polosukhin 提供了生動的例子：「這個例子就像 2+2，如果你正確地將他輸入到這個模型中，它就會使用一兆個參數。所以我認為自適應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。」這個批評揭示了當前 AI 模型的根本缺陷：缺乏自適應性，對簡單和複雜問題投入相同的計算資源，造成巨大浪費。

Noam Shazeer 從經濟角度分析：「我認為目前的模型太過經濟實惠，規模也還太小。每次操作的計算成本大約是 10 到 18 美元。如果你觀察一個擁有五千億參數的模型，並且每個 token 進行一萬億次計算，大概是一美元百萬 token，這比外出購買一本平裝書並閱讀的成本要便宜 100 倍。」這個觀點反常識但深刻：AI 目前太便宜了，導致人們濫用而非珍惜計算資源。

未來方向：自適應計算與推理能力

Lukasz Kaiser 揭示了一個重要事實：「我們在最初的目標上並沒有成功，我們開始 Transformer 的初衷是想要模擬 Token 的演化過程。它不僅僅是線性的生成過程，而是文字或程式碼的逐步演化。」這個坦承顯示 Transformer 雖然成功，但並未完全實現創造者的願景。

Jakob Uszkoreit 指出下一步方向：「下一步是推理。我們都體認到了推理的重要性，但許多工作目前還是由工程師手工完成的。我們希望模型能夠產生我們想要的內容，無論是影片、文字或 3D 訊息，它們都應該被整合在一起。」這暗示未來的 AI 架構需要更強的推理能力和多模態整合。

Aidan Gomez 補充：「我們能否實現多任務、多線的並行。如果你真的想建立這樣一個模型，幫助我們設計這樣一個模型，這是一個非常好的方式。」Lukasz Kaiser 認為：「推理實際上是來自於數據，我們需要讓數據更充實。」這些討論指向了 Transformer 之後 AI 架構的幾個關鍵方向：自適應計算、增強推理、多模態融合和更高效的數據利用。

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

Market Whisper

熱門話題查看更多
#逆勢上漲幣種推薦
7276 熱度
#美聯儲會議紀要將公佈
6257 熱度
#比特幣行情觀察
5801 熱度
#SEC與CFTC恢復運作
547 熱度
#美國結束政府停擺
3.18萬熱度

熱門 Gate Fun查看更多

1
GateBoyGateBoy
市值:$4476.83持有人數:29
3.26%
2
GateBoyGateBoy
市值:$3779.31持有人數:1
0.00%
3
223223
市值:$3789.65持有人數:1
0.00%
4
223223
市值:$3793.1持有人數:1
0.00%
5
2222
市值:$3793.1持有人數:1
0.00%