原文來源:AI新智慧
圖片來源:由無界 AI生成
國產大模型套殼,是個被吐槽已久的現象。
最近,前阿裡巴巴副總裁、知名AI框架大牛賈揚清昨日發朋友圈,爆錘國內某大廠套殼大模型LLaMA。
大意是:要改就改吧,但別掩耳盜鈴了,免得小公司做一些多餘的適配工作......
針對這條消息,業內不少人士紛紛猜測,賈揚清所說的那個“套殼大廠”,實際上就是前不久剛發佈了Yi-34B大模型的零一萬物。
作為李開複AI團隊的第一個大模型,Yi-34B有34B個參數,也是基於GPT的架構,且在Hugging Face和C-的兩個開源模型排行榜上,都取得了第一的成績。
然而,在模型發佈后不久,Hugging Face社區就給零一萬物留了條消息,要求其修改模型張量。
理由是:除了兩個張量被重新命名外,Yi完全使用了Llama的架構。
看到這兒,不少業內人士紛紛皺眉:這是赤裸裸的「套殼」嗎?
如果是的話,為什麼大模型浪潮都已經過去大半年了,這種「歪風邪氣」還是層出不窮呢?
1
怎樣才算“套殼”?
實際上,在該事件傳出后不久,零一萬物就做出了回應,他們承認Yi-34B的結構設計是基於GPT的成熟結構,借鑒了LLaMA的公開成果,但是這是為了與行業主流保持一致,更有利於適配和反覆運算。
不過,這種解釋涉及到了個很重要的問題,那就是:到底該怎樣涇渭分明地界定「套殼」和「借鑒」?
在開源模型的基礎上進行修改、調整,究竟算不算一種「套殼」行為?
從技術層面上來說,判斷一個專案是“借鑒”還是“套殼”,關鍵在於評估所做的改進或優化是否具有實質性和原創性。
在借鑒的過程中,開發者會在原有模型的基礎上做出顯著的增值,例如引入新的數據處理技術、優化演算法性能,或者開發特定於某個行業或應用的功能。
同時,在借鑒時,開發者通常會明確指出,他們的改動是基於哪個開源模型,並說明他們所做的改進和創新。 這種做法符合開源社區的原則和精神。
相反,如果改動僅限於表面層面,沒有提供任何新的技術見解或實質性的性能改進,則就可以被視為套殼。
那這次零一萬物的Yi-34B,算套殼嗎?
從已經公佈的資訊來看,零一萬物公司的做法似乎介於“套殼”和“借鑒”之間。
他們確實在一定程度上依賴了LLaMA的架構,但也在數據處理、訓練方法等方面進行了自己的工作和創新。
例如,其使用了自建的數據管線,從3PB原始數據中精選到3T token的高質量數據,以及在在網路寬度和深度上測試了不同的Norm方法。
這些改進可能不那麼容易從模型的架構或代碼直接觀察到,它們通常在模型的內部,而不是直接體現在模型的基礎架構上。
這種情況下,將其完全歸類為“套殼”可能有失公允。
但也不能完全視為獨立的“借鑒”,原因在於其模型架構與LLaMA架構的高度相似性。
當一個新模型在核心架構上,與現有的開源模型高度相似或幾乎一致時,即使在其他方面有所創新和改進,也很難被完全視為獨立的“借鑒”。
2
時間壓力
儘管零一萬物此次的意外,或許算不上完全的“套殼”,但國產大模型“套殼”的情況,確實由來已久。
國產大模型,為何屢屢「套殼」?
除了算力、人才和資金方面的短缺,讓部分團隊「另闢蹊徑」外,另一個重要的原因,就是當前大模型創業的時間窗口,已經收得越來越緊了。
畢竟,大模型這股熱潮,已經燃燒了大半年之久,該入局的玩家早已入局,整個行業的格局已經基本形成。
頭部大廠的地位撼動,國外同行又不斷推陳出新,留給模型層團隊的時間,真的不多了。
在市場上同類大模型越來越多的情況下,客戶為什麼要偏偏苦守著一個研發緩慢,前途又不甚明朗的大模型?
市場對於快速解決方案的需求迫在眉睫。 客戶的需求不能等。 他們需要現在就能用的解決方案,而不是幾年後。
在這樣的壓力下,部分團隊做出了選擇:使用開源模型作為基礎,對其進行改進和定製,以適應市場的需求。
畢竟,即使擁有頂尖人才,創新和自主研發的過程也是漫長的且充滿不確定性的。 因為人工智慧領域正在快速發展和變化,市場和技術的不確定性意味著巨大的研發風險。
在今年10月之前,不少國內團隊,都將GPT-4當成“對標”的目標。 然而,殊不知你在進,你的對手也在進。
9月底,OpenAI推出了DALL-E3,緊接著又推出了GPT-4V和語音交互功能,在多模態層面更上了一層樓。
而11月初開發者大會的一系列“王炸”更新,則用更長的文本長度、全新的 Assistants API、以及文本轉語音(TTS)技術,扼殺了想在“局部領域”進行突圍的國產模型。
在技術反覆運算迅速的情況下,許多團隊還在苦苦研發的大模型,也許還沒發佈,就已經過時。
對於創業團隊來說,在保持技術創新的同時,也要考慮到商業模型的可行性和市場的接受度。
而有著成熟框架,且得到市場廣泛認可的開源大模型,無疑成了一種可靠的,可以馬上投入使用的方案。
並且,成熟的開源框架通常有一個龐大的社區支援,這意味著團隊在遇到問題時可以獲得更多的説明。
同時,社區中的其他開發者可能已經解決了一些常見問題,團隊可以直接借鑒這些解決方案,避免重複勞動。
3
套殼大模型,能投嗎?
在國產大模型「套殼」已經成普遍現象,並且將來極有可能成為常態的情況下,所有投資人都不得不面對一個問題,那就是:
如果硬是要在這些「套殼」的大模型公司里,物色可投資的企業,那應該怎麼選?
在考慮這個問題時,有一個非常重要的因素,即:
這些套殼的大模型公司,究竟是完全依賴於「套殼」,沒有任何自主研發的努力和計劃,還是以「套殼」作為妥協和過渡手段,但有明確的長期發展計劃,有創新的願景,有能力最終轉向自主研發?
這兩種情況,需要區別對待。
在對這兩類企業進行考察時,一個十分重要的衡量標準,就是技術和產品路線圖。
因為一個清晰、具有前瞻性的技術和產品路線圖,直接反映了企業的長期戰略意圖和創新能力。 它不僅顯示了企業是否有計劃從「套殼」轉向自主研發,還表明瞭企業未來技術發展的方向和潛在的市場競爭力。
實際上,以類似「套殼」的方式進入市場,最後卻依靠自研產品獲得用戶認可的案例,在商業上並不罕見。
例如移動互聯網時代的小米,就是一個明顯的例子。
起初,小米的智能手機在外界看來,似乎只是模仿了其他品牌(尤其是蘋果)的設計和功能。 其早期產品被批評為缺乏創新,更多地依賴於現有的設計和操作系統(基於Android的MIUI系統)。
然而,小米後來展示了對自身技術和產品路線圖的長期堅持,其不僅在軟體上(MIUI系統)進行了大量的自主創新,還在硬體設計、功能創新以及用戶體驗上進行了顯著的研發。
例如其自主研發的手機晶片Surge S1,就標誌著小米在手機核心技術領域的自主創新。
隨著時間的推移,小米憑藉更多的創新技術,在市場上獲得了極高的評價和廣泛的用戶基礎。
同樣地,在當前「套殼」的國產大模型企業中,也不排除存在著一些有著長期技術路線的企業。
倘若以這樣的觀點來看,所謂的“套殼”,也並不意味著國產大模型黑暗的前景。
從產業的角度來說,只有更多具有創新潛力的企業,從AI浪潮初期的“大過濾器”中倖存了下來,未來更多的自主創新,才可能相繼出現。
3064 熱度
3237 熱度
132979 熱度
149 熱度
17048 熱度
套殼的大模型,為何還活著?
原文來源:AI新智慧
國產大模型套殼,是個被吐槽已久的現象。
最近,前阿裡巴巴副總裁、知名AI框架大牛賈揚清昨日發朋友圈,爆錘國內某大廠套殼大模型LLaMA。
大意是:要改就改吧,但別掩耳盜鈴了,免得小公司做一些多餘的適配工作......
作為李開複AI團隊的第一個大模型,Yi-34B有34B個參數,也是基於GPT的架構,且在Hugging Face和C-的兩個開源模型排行榜上,都取得了第一的成績。
然而,在模型發佈后不久,Hugging Face社區就給零一萬物留了條消息,要求其修改模型張量。
理由是:除了兩個張量被重新命名外,Yi完全使用了Llama的架構。
如果是的話,為什麼大模型浪潮都已經過去大半年了,這種「歪風邪氣」還是層出不窮呢?
1
怎樣才算“套殼”?
實際上,在該事件傳出后不久,零一萬物就做出了回應,他們承認Yi-34B的結構設計是基於GPT的成熟結構,借鑒了LLaMA的公開成果,但是這是為了與行業主流保持一致,更有利於適配和反覆運算。
不過,這種解釋涉及到了個很重要的問題,那就是:到底該怎樣涇渭分明地界定「套殼」和「借鑒」?
在開源模型的基礎上進行修改、調整,究竟算不算一種「套殼」行為?
從技術層面上來說,判斷一個專案是“借鑒”還是“套殼”,關鍵在於評估所做的改進或優化是否具有實質性和原創性。
同時,在借鑒時,開發者通常會明確指出,他們的改動是基於哪個開源模型,並說明他們所做的改進和創新。 這種做法符合開源社區的原則和精神。
相反,如果改動僅限於表面層面,沒有提供任何新的技術見解或實質性的性能改進,則就可以被視為套殼。
那這次零一萬物的Yi-34B,算套殼嗎?
他們確實在一定程度上依賴了LLaMA的架構,但也在數據處理、訓練方法等方面進行了自己的工作和創新。
例如,其使用了自建的數據管線,從3PB原始數據中精選到3T token的高質量數據,以及在在網路寬度和深度上測試了不同的Norm方法。
這些改進可能不那麼容易從模型的架構或代碼直接觀察到,它們通常在模型的內部,而不是直接體現在模型的基礎架構上。
但也不能完全視為獨立的“借鑒”,原因在於其模型架構與LLaMA架構的高度相似性。
當一個新模型在核心架構上,與現有的開源模型高度相似或幾乎一致時,即使在其他方面有所創新和改進,也很難被完全視為獨立的“借鑒”。
2
時間壓力
儘管零一萬物此次的意外,或許算不上完全的“套殼”,但國產大模型“套殼”的情況,確實由來已久。
國產大模型,為何屢屢「套殼」?
除了算力、人才和資金方面的短缺,讓部分團隊「另闢蹊徑」外,另一個重要的原因,就是當前大模型創業的時間窗口,已經收得越來越緊了。
畢竟,大模型這股熱潮,已經燃燒了大半年之久,該入局的玩家早已入局,整個行業的格局已經基本形成。
在市場上同類大模型越來越多的情況下,客戶為什麼要偏偏苦守著一個研發緩慢,前途又不甚明朗的大模型?
市場對於快速解決方案的需求迫在眉睫。 客戶的需求不能等。 他們需要現在就能用的解決方案,而不是幾年後。
在這樣的壓力下,部分團隊做出了選擇:使用開源模型作為基礎,對其進行改進和定製,以適應市場的需求。
畢竟,即使擁有頂尖人才,創新和自主研發的過程也是漫長的且充滿不確定性的。 因為人工智慧領域正在快速發展和變化,市場和技術的不確定性意味著巨大的研發風險。
9月底,OpenAI推出了DALL-E3,緊接著又推出了GPT-4V和語音交互功能,在多模態層面更上了一層樓。
而11月初開發者大會的一系列“王炸”更新,則用更長的文本長度、全新的 Assistants API、以及文本轉語音(TTS)技術,扼殺了想在“局部領域”進行突圍的國產模型。
在技術反覆運算迅速的情況下,許多團隊還在苦苦研發的大模型,也許還沒發佈,就已經過時。
對於創業團隊來說,在保持技術創新的同時,也要考慮到商業模型的可行性和市場的接受度。
而有著成熟框架,且得到市場廣泛認可的開源大模型,無疑成了一種可靠的,可以馬上投入使用的方案。
同時,社區中的其他開發者可能已經解決了一些常見問題,團隊可以直接借鑒這些解決方案,避免重複勞動。
3
套殼大模型,能投嗎?
在國產大模型「套殼」已經成普遍現象,並且將來極有可能成為常態的情況下,所有投資人都不得不面對一個問題,那就是:
如果硬是要在這些「套殼」的大模型公司里,物色可投資的企業,那應該怎麼選?
在考慮這個問題時,有一個非常重要的因素,即:
這些套殼的大模型公司,究竟是完全依賴於「套殼」,沒有任何自主研發的努力和計劃,還是以「套殼」作為妥協和過渡手段,但有明確的長期發展計劃,有創新的願景,有能力最終轉向自主研發?
在對這兩類企業進行考察時,一個十分重要的衡量標準,就是技術和產品路線圖。
因為一個清晰、具有前瞻性的技術和產品路線圖,直接反映了企業的長期戰略意圖和創新能力。 它不僅顯示了企業是否有計劃從「套殼」轉向自主研發,還表明瞭企業未來技術發展的方向和潛在的市場競爭力。
實際上,以類似「套殼」的方式進入市場,最後卻依靠自研產品獲得用戶認可的案例,在商業上並不罕見。
例如移動互聯網時代的小米,就是一個明顯的例子。
然而,小米後來展示了對自身技術和產品路線圖的長期堅持,其不僅在軟體上(MIUI系統)進行了大量的自主創新,還在硬體設計、功能創新以及用戶體驗上進行了顯著的研發。
例如其自主研發的手機晶片Surge S1,就標誌著小米在手機核心技術領域的自主創新。
隨著時間的推移,小米憑藉更多的創新技術,在市場上獲得了極高的評價和廣泛的用戶基礎。
倘若以這樣的觀點來看,所謂的“套殼”,也並不意味著國產大模型黑暗的前景。
從產業的角度來說,只有更多具有創新潛力的企業,從AI浪潮初期的“大過濾器”中倖存了下來,未來更多的自主創新,才可能相繼出現。