套殼的大模型，為何還活著？

Question

原文來源：AI新智慧![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4499f99b5e-dd1a6f-cd5cc0) 圖片來源：由無界 AI生成國產大模型套殼，是個被吐槽已久的現象。最近，前阿裡巴巴副總裁、知名AI框架大牛賈揚清昨日發朋友圈，爆錘國內某大廠套殼大模型LLaMA。大意是：要改就改吧，但別掩耳盜鈴了，免得小公司做一些多餘的適配工作......![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a6382d4313-dd1a6f-cd5cc0) 針對這條消息，業內不少人士紛紛猜測，賈揚清所說的那個“套殼大廠”，實際上就是前不久剛發佈了Yi-34B大模型的零一萬物。  作為李開複AI團隊的第一個大模型，Yi-34B有34B個參數，也是基於GPT的架構，且在Hugging Face和C-的兩個開源模型排行榜上，都取得了第一的成績。然而，在模型發佈后不久，Hugging Face社區就給零一萬物留了條消息，要求其修改模型張量。理由是：除了兩個張量被重新命名外，Yi完全使用了Llama的架構。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ded222ccde-dd1a6f-cd5cc0) 看到這兒，不少業內人士紛紛皺眉：這是赤裸裸的「套殼」嗎？  如果是的話，為什麼大模型浪潮都已經過去大半年了，這種「歪風邪氣」還是層出不窮呢？**1****怎樣才算“套殼”？**實際上，在該事件傳出后不久，零一萬物就做出了回應，他們承認Yi-34B的結構設計是基於GPT的成熟結構，借鑒了LLaMA的公開成果，但是這是為了與行業主流保持一致，更有利於適配和反覆運算。不過，這種解釋涉及到了個很重要的問題，那就是：到底該怎樣涇渭分明地界定「套殼」和「借鑒」？在開源模型的基礎上進行修改、調整，究竟算不算一種「套殼」行為？從技術層面上來說，判斷一個專案是“借鑒”還是“套殼”，關鍵在於評估所做的改進或優化是否具有實質性和原創性。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acc9baa288-dd1a6f-cd5cc0) 在借鑒的過程中，開發者會在原有模型的基礎上做出顯著的增值，例如引入新的數據處理技術、優化演算法性能，或者開發特定於某個行業或應用的功能。  同時，在借鑒時，開發者通常會明確指出，他們的改動是基於哪個開源模型，並說明他們所做的改進和創新。 這種做法符合開源社區的原則和精神。相反，如果改動僅限於表面層面，沒有提供任何新的技術見解或實質性的性能改進，則就可以被視為套殼。那這次零一萬物的Yi-34B，算套殼嗎？![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-293ad4a62b-dd1a6f-cd5cc0) 從已經公佈的資訊來看，零一萬物公司的做法似乎介於“套殼”和“借鑒”之間。  他們確實在一定程度上依賴了LLaMA的架構，但也在數據處理、訓練方法等方面進行了自己的工作和創新。例如，其使用了自建的數據管線，從3PB原始數據中精選到3T token的高質量數據，以及在在網路寬度和深度上測試了不同的Norm方法。這些改進可能不那麼容易從模型的架構或代碼直接觀察到，它們通常在模型的內部，而不是直接體現在模型的基礎架構上。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c637e893bb-dd1a6f-cd5cc0) 這種情況下，將其完全歸類為“套殼”可能有失公允。  但也不能完全視為獨立的“借鑒”，原因在於其模型架構與LLaMA架構的高度相似性。當一個新模型在核心架構上，與現有的開源模型高度相似或幾乎一致時，即使在其他方面有所創新和改進，也很難被完全視為獨立的“借鑒”。**2****時間壓力**儘管零一萬物此次的意外，或許算不上完全的“套殼”，但國產大模型“套殼”的情況，確實由來已久。國產大模型，為何屢屢「套殼」？除了算力、人才和資金方面的短缺，讓部分團隊「另闢蹊徑」外，另一個重要的原因，就是當前大模型創業的時間窗口，已經收得越來越緊了。畢竟，大模型這股熱潮，已經燃燒了大半年之久，該入局的玩家早已入局，整個行業的格局已經基本形成。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3075c256b6-dd1a6f-cd5cc0) 頭部大廠的地位撼動，國外同行又不斷推陳出新，留給模型層團隊的時間，真的不多了。  在市場上同類大模型越來越多的情況下，客戶為什麼要偏偏苦守著一個研發緩慢，前途又不甚明朗的大模型？市場對於快速解決方案的需求迫在眉睫。 客戶的需求不能等。 他們需要現在就能用的解決方案，而不是幾年後。在這樣的壓力下，部分團隊做出了選擇：使用開源模型作為基礎，對其進行改進和定製，以適應市場的需求。畢竟，即使擁有頂尖人才，創新和自主研發的過程也是漫長的且充滿不確定性的。 因為人工智慧領域正在快速發展和變化，市場和技術的不確定性意味著巨大的研發風險。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef815c194f-dd1a6f-cd5cc0) 在今年10月之前，不少國內團隊，都將GPT-4當成“對標”的目標。 然而，殊不知你在進，你的對手也在進。  9月底，OpenAI推出了DALL-E3，緊接著又推出了GPT-4V和語音交互功能，在多模態層面更上了一層樓。而11月初開發者大會的一系列“王炸”更新，則用更長的文本長度、全新的 Assistants API、以及文本轉語音（TTS）技術，扼殺了想在“局部領域”進行突圍的國產模型。在技術反覆運算迅速的情況下，許多團隊還在苦苦研發的大模型，也許還沒發佈，就已經過時。對於創業團隊來說，在保持技術創新的同時，也要考慮到商業模型的可行性和市場的接受度。而有著成熟框架，且得到市場廣泛認可的開源大模型，無疑成了一種可靠的，可以馬上投入使用的方案。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ee4af94791-dd1a6f-cd5cc0) 並且，成熟的開源框架通常有一個龐大的社區支援，這意味著團隊在遇到問題時可以獲得更多的説明。  同時，社區中的其他開發者可能已經解決了一些常見問題，團隊可以直接借鑒這些解決方案，避免重複勞動。**3****套殼大模型，能投嗎？**在國產大模型「套殼」已經成普遍現象，並且將來極有可能成為常態的情況下，所有投資人都不得不面對一個問題，那就是：  如果硬是要在這些「套殼」的大模型公司里，物色可投資的企業，那應該怎麼選？在考慮這個問題時，有一個非常重要的因素，即：這些套殼的大模型公司，究竟是完全依賴於「套殼」，沒有任何自主研發的努力和計劃，還是以「套殼」作為妥協和過渡手段，但有明確的長期發展計劃，有創新的願景，有能力最終轉向自主研發？![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f927a9c9dc-dd1a6f-cd5cc0) 這兩種情況，需要區別對待。  在對這兩類企業進行考察時，一個十分重要的衡量標準，就是技術和產品路線圖。因為一個清晰、具有前瞻性的技術和產品路線圖，直接反映了企業的長期戰略意圖和創新能力。 它不僅顯示了企業是否有計劃從「套殼」轉向自主研發，還表明瞭企業未來技術發展的方向和潛在的市場競爭力。實際上，以類似「套殼」的方式進入市場，最後卻依靠自研產品獲得用戶認可的案例，在商業上並不罕見。例如移動互聯網時代的小米，就是一個明顯的例子。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-822cabf829-dd1a6f-cd5cc0) 起初，小米的智能手機在外界看來，似乎只是模仿了其他品牌（尤其是蘋果）的設計和功能。 其早期產品被批評為缺乏創新，更多地依賴於現有的設計和操作系統（基於Android的MIUI系統）。  然而，小米後來展示了對自身技術和產品路線圖的長期堅持，其不僅在軟體上（MIUI系統）進行了大量的自主創新，還在硬體設計、功能創新以及用戶體驗上進行了顯著的研發。例如其自主研發的手機晶片Surge S1，就標誌著小米在手機核心技術領域的自主創新。隨著時間的推移，小米憑藉更多的創新技術，在市場上獲得了極高的評價和廣泛的用戶基礎。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-13851e1113-dd1a6f-cd5cc0) 同樣地，在當前「套殼」的國產大模型企業中，也不排除存在著一些有著長期技術路線的企業。  倘若以這樣的觀點來看，所謂的“套殼”，也並不意味著國產大模型黑暗的前景。從產業的角度來說，只有更多具有創新潛力的企業，從AI浪潮初期的“大過濾器”中倖存了下來，未來更多的自主創新，才可能相繼出現。