🎉 Gate.io動態 #创作者成长激励计划# 火熱進行中!您報名參與發帖了嗎?
趕緊報名參與發帖,茶具套裝、Gate.io紀念章、合約體驗券等價值 $2,000 豐厚大獎等你來拿!
參與方式:
1.點擊活動表單完成報名獲取獲獎資格 👉️ https://www.gate.io/questionnaire/6550
2.隨後在動態發布帖子,發布帖子越多越優質獲獎機會越大!
📌 任何與加密相關內容均可參與,創作者們請盡情發帖!
🎁活動獎勵:
🔹榜單 Top40 及新人 Top10 可贏茶具套裝、國際米蘭保溫杯、Gate.io紀念章、合約體驗券等超$2,000好禮!
🔹上榜創作者還將解鎖AMA訪談、榮譽海報、V5標識、精選推薦、動態大使等流量扶持,助你提升社區影響力!
活動截止至:5月6日00:00 (UTC+8)
詳情:https://www.gate.io/announcements/article/44513
創作者們,請盡情發帖,爭奪創作榜單,贏取豐厚創作大獎及流量曝光!
Transformer六週年:當年連NeurIPS Oral都沒拿到,8位作者已創辦數家AI獨角獸
今天是著名的transformer 論文提交六週年的日子。
六年前,一篇名字有點浮誇的論文被上傳到了預印版論文平台arXiv 上,「xx is All You Need」這句話被AI 領域的開發者們不斷複述,甚至已經成了論文標題的潮流,而Transformer 也不再是變形金剛的意思,它現在代表著AI 領域最先進的技術。
六年後,回看當年的這篇論文,我們可以發現很多有趣或鮮為人知的地方,正如英偉達AI 科學家Jim Fan 所總結的那樣。
Transformer 模型拋棄了傳統的CNN 和RNN 單元,整個網絡結構完全是由注意力機制組成。
雖然Transformer 論文的名字是《Attention is All You Need》,我們也因它而不斷推崇注意力機制,但請注意一個有趣的事實:並不是Transformer 的研究者發明了注意力,而是他們把這種機制推向了極致。
注意力機制(Attention Mechanism)是由深度學習先驅Yoshua Bengio 帶領的團隊於2014 年提出的:
在這篇ICLR 2015 論文中,Bengio 等人提出了一種RNN +「上下文向量」(即註意力)的組合。雖然它是NLP 領域最偉大的里程碑之一,但相比transformer,其知名度要低得多,Bengio 團隊的論文至今已被引用2.9 萬次,Transformer 有7.7 萬次。
如果不放過任何局部信息,必然會作很多無用功,不利於生存。同樣地,在深度學習網絡中引入類似的機制可以簡化模型,加速計算。從本質上說,Attention 就是從大量信息中有篩選出少量重要信息,並聚焦到這些重要信息上,忽略大多不重要的信息。
近年來,注意力機制被廣泛應用在深度學習的各個領域,如在計算機視覺方向用於捕捉圖像上的感受野,或者NLP 中用於定位關鍵token 或者特徵。大量實驗證明,添加了注意力機制的模型在圖像分類、分割、追踪、增強以及自然語言識別、理解、問答、翻譯中任務中均取得了明顯的性能提升。
引入了注意力機制的Transformer 模型可以看做一種通用序列計算機(general-purpose sequence computer),注意力機制允許模型在處理輸入序列時根據序列中不同位置的相關性分配不同的注意力權重,這使得Transformer 能夠捕捉到長距離的依賴關係和上下文信息,從而提高序列處理的效果。
但在當年,不論是Transformer 還是最初的attention 論文都沒有談到通用序列計算機。相反,作者們認為它是解決一個狹窄而具體的問題—— 機器翻譯的機制。所以未來的我們追溯起AGI 的起源時,說不定可以追溯到「不起眼」的谷歌翻譯。
雖然被NeurIPS 2017 接收,但連個Oral 都沒拿到
Transformer 這篇論文雖然現在影響力很大,但在當年的全球頂級AI 會議NeurIPS 2017 上,連個Oral 都沒拿到,更不用說拿到獎項了。當年大會共收到3240 篇論文投稿,其中678 篇被選為大會論文,Transformer 論文就是被接收的論文之一,在這些論文中,40 篇為Oral 論文,112 篇為Spotlight 論文,3 篇最佳論文,一篇Test of time award 獎項,Transformer 無緣獎項。
雖然無緣NeurIPS 2017 論文獎項,但Transformer 的影響力大家也是有目共睹的。
Jim Fan 評價說:在一項有影響力的研究變得有影響力之前,人們很難意識到它的重要性,這不是評委的錯。不過,也有論文足夠幸運,能夠第一時間被發現,比如何愷明等人提出的ResNet,當年獲得了CVPR 2016 最佳論文,這一研究當之無愧,得到了AI 頂會的正確認可。但在2017 年那個當下,非常聰明的研究者也未必能夠預測現在LLM 帶來的變革,就像20 世紀80 年代一樣,很少有人能預見到2012 年以來深度學習帶來的海嘯。
當時這篇論文的作者共有8 位,他們分別來自谷歌和多倫多大學,五年過去了,大部分論文作者都已離開了原機構。
2022 年4 月26 日,一家名為「Adept」的公司官宣成立,共同創始人有9 位,其中就包括Transformer 論文作者中的兩位Ashish Vaswani 和Niki Parmar。
Niki Parmar 碩士畢業於南加州大學,2016 年加入谷歌。工作期間,她為谷歌搜索和廣告研發了一些成功的問答和文本相似度模型。她領導了擴展Transformer 模型的早期工作,將其擴展到了圖像生成、計算機視覺等領域。 2021 年,她也離開谷歌。
在離開之後,兩人參與創立了Adept,並分別擔任首席科學家(Ashish Vaswani)和首席技術官(Niki Parmar)。 Adept 的願景是創建一個被稱為「人工智能隊友」的AI,該AI 經過訓練,可以使用各種不同的軟件工具和API。
2023 年3 月,Adept 宣布完成3.5 億美元的B 輪融資,公司估值超過10 億美元,晉升獨角獸。不過,在Adept 公開融資的時候,Niki Parmar 和Ashish Vaswani 已經離開了Adept,並創立了自己的AI 新公司。不過,這家新公司目前還處於保密階段,我們無法獲取該公司的詳細信息。
另一位論文作者Noam Shazeer 是谷歌最重要的早期員工之一。他在2000 年底加入谷歌,直到2021 年最終離職,之後成為了一家初創企業的CEO,名字叫做「Character.AI」。
Character.AI 創始人除了Noam Shazeer,還有一位是Daniel De Freitas,他們都來自谷歌的LaMDA 團隊。此前,他們在谷歌構建了支持對話程序的語言模型LaMDA。
今年三月,Character.AI 宣布完成1.5 億美元融資,估值達到10 億美元,是為數不多有潛力與ChatGPT 所屬機構OpenAI 競爭的初創公司之一,也是罕見的僅用16 個月時間就成長為獨角獸的公司。其應用程序Character.AI 是一個神經語言模型聊天機器人,可以生成類似人類的文本響應並參與上下文對話。
Character.AI 於2023 年5 月23 日在Apple App Store 和Google Play Store 發布,第一周下載量超過170 萬次。 2023 年5 月,該服務增加了每月9.99 美元的付費訂閱,稱為c.ai+,該訂閱允許用戶優先聊天訪問,獲得更快的響應時間和早期訪問新功能等特權。
Cohere 是一家生成式AI 初創公司,於2019 年成立,其核心業務包括提供NLP 模型,並幫助企業改進人機交互。三位創始人分別為Ivan Zhang、Nick Frosst 和Aidan Gomez,其中Gomez 和Frosst 是谷歌大腦團隊的前成員。 2021 年11 月,Google Cloud 宣布他們將與Cohere 合作,Google Cloud 將使用其強大的基礎設施為Cohere 平台提供動力,而Cohere 將使用Cloud 的TPU 來開發和部署其產品。
值得注意的是,Cohere 剛剛獲得2.7 億美元C 輪融資,成為市值22 億美元的獨角獸。
在谷歌工作期間,Jakob Uszkoreit 參與了組建谷歌助理的語言理解團隊,早期還曾從事過谷歌翻譯的工作。