ケーシングの大型模型がなぜ生きているのか?

Question

出典: AI New Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4499f99b5e-dd1a6f-cd5cc0) 画像ソース: Unbounded AIによって生成国産大型模型シェルは長らく不満の声が上がっている現象です。最近では、アリババの元副社長で、AIフレームワークの強気派として有名なJia Yangqing氏が昨日、Momentsに投稿し、国内大手メーカーのシェルモデルLLaMAを非難しました。要点は、変更したい場合は変更しますが、小さな会社が冗長な適応作業をしないように、それを隠してベルを盗むことはありません...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a6382d4313-dd1a6f-cd5cc0) このニュースを受けて、業界の多くの人々は、Jia Yangqingが言及した「シェルファクトリー」は、実際には少し前にYi-34B大型モデルをリリースしたばかりのゼロと1万のものであると推測しています。  Kai-Fu Lee氏のAIチームの最初の大規模モデルであるYi-34Bは、34Bのパラメータを持ち、同じくGPTアーキテクチャに基づいており、Hugging FaceとC-の2つのオープンソースモデルランキングで最初の結果を達成しました。しかし、モデルがリリースされた直後、Hugging FaceコミュニティはZero One Thingsにメッセージを残し、モデルテンソルを変更するように依頼しました。理論的根拠は、名前が変更された2つのテンソルを除いて、YiはLlamaのアーキテクチャを完全に使用していることです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ded222ccde-dd1a6f-cd5cc0) これを見て、業界の多くの人々は眉をひそめました:これは裸の「抜け殻」ですか?  だとしたら、なぜ半年以上も大型模型の波が過ぎ去り、いまだにこのような「曲がった雰囲気」が出てきているのか。**1****「シェル」とは何ですか?実際、事件が勃発した直後、Zero One Thingは、Yi-34Bの構造設計はGPTの成熟した構造に基づいており、LLaMAの公開結果に基づいているが、これは業界の主流と一致しており、適応と反復をより助長するものであることを認めました。しかし、この解釈には、「殻」と「借用」をいかに明確に定義するかという重要な問題があります。オープンソースモデルに基づいて変更や調整を行うことは、一種の「シェル化」動作ですか?技術的な観点から見ると、プロジェクトが「借用」か「ケーシング」かを判断する鍵は、行われた改善または最適化が実質的で独創的であるかどうかを評価することです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acc9baa288-dd1a6f-cd5cc0) このプロセスでは、開発者は、新しいデータ処理手法の導入、アルゴリズムのパフォーマンスの最適化、業界やアプリケーションに固有の機能の開発など、既存のモデルに大きな価値を付加します。  同時に、開発者は、変更がどのオープンソースモデルに基づいているかを明確にし、行った改善と革新を説明することがよくあります。 このアプローチは、オープンソースコミュニティの原則と精神に沿ったものです。逆に、変更が表面的で、新しい技術的洞察や大幅なパフォーマンスの向上を提供しない場合は、ケーシングと見なすことができます。では、今回のYi-34Bは、0と1000のものがあるのですが、殻と見なされますか?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-293ad4a62b-dd1a6f-cd5cc0) 公開されている情報から判断すると、0100000のアプローチは「砲撃」と「借用」の中間のようです。  彼らはある程度LLaMAのアーキテクチャに依存していますが、データ処理やトレーニング方法などにおいて独自の作業と革新も行っています。例えば、独自のデータパイプラインを使用し、3PBの生データから3Tトークンまで高品質のデータを選択し、ネットワークの幅と深さでさまざまなNormメソッドをテストしました。これらの改善は、モデルのアーキテクチャやコードから直接観察するのは簡単ではない場合があり、多くの場合、モデルのインフラストラクチャに直接反映されるのではなく、モデル内にあります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c637e893bb-dd1a6f-cd5cc0) この場合、完全に「ケーシング」として分類するのは不公平かもしれません。  ただし、モデルアーキテクチャとLLaMAアーキテクチャの類似性が高いため、独立した「リファレンス」と見なすことはできません。新しいモデルがコアアーキテクチャの点で既存のオープンソースモデルと非常に類似しているか、ほぼ同一である場合、それが革新的で改善されたとしても、独立した「借用」と見なすことは困難です。**2****時間的プレッシャー**今回の010000モノの事故は完全な「殻」ではないかもしれませんが、国産大型モデルの「殻」という状況は確かに昔からありました。なぜ国産大型モデルは「カスケード」を繰り返すのか?計算能力、人材、資金の不足により、一部のチームが「別の方法を見つける」ことに加えて、もう一つの重要な理由は、大規模なモデル起業家精神の現在の時間枠がますます狭くなっていることです。何しろ大型模型の流行が半年以上燃えていて、ゲームに参入するはずのプレイヤーが既にゲームに参入してしまって、業界全体のパターンが基本的に形成されてしまっている。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3075c256b6-dd1a6f-cd5cc0) 大手メーカーの地位は揺らいでおり、海外のカウンターパートは常に革新を続けており、モデルレイヤーチームに残された時間は本当にあまりありません。  似たような大型モデルがどんどん市場に出回っているのに、なぜ顧客は開発が遅く、将来があまり不透明な大型モデルにこだわらなければならないのでしょうか?迅速な解決策の必要性が差し迫っています。 顧客のニーズは待ったなしです。 彼らが必要としているのは、数年後ではなく、今でうまくいくソリューションです。このようなプレッシャーの中で、一部のチームは、オープンソースモデルを基盤として使用し、市場のニーズに合わせて改善およびカスタマイズするという選択をしました。結局のところ、優秀な人材がいても、イノベーションと社内開発のプロセスは長く、不確実です。 人工知能の分野は急速に進化し、変化しているため、市場と技術の不確実性は大きな研究開発リスクを意味します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef815c194f-dd1a6f-cd5cc0) 今年10月までは、多くの国内チームがGPT-4を「ベンチマーク」ターゲットと見なしていました。 しかし、誰もが知っているように、あなたは前進しており、対戦相手も前進しています。  9月末、OpenAIはDALL-E3を発売し、続いてGPT-4Vと音声対話機能を発売し、マルチモーダルレベルで次のレベルに引き上げました。11月初旬、開発者会議での一連の「キングボム」アップデートは、より長いテキスト長、新しいアシスタントAPI、テキスト読み上げ(TTS)テクノロジーで「ローカルドメイン」を突破したい国内モデルを窒息させました。急速なテクノロジーのイテレーションの文脈では、多くのチームが大規模なモデルの開発にまだ苦労しており、リリース前に古くなっている可能性があります。スタートアップチームにとっては、技術革新を維持しつつ、ビジネスモデルの実現可能性や市場での受容性も考慮する必要があります。成熟したフレームワークを持ち、市場で広く認識されているオープンソースモデルは、間違いなくすぐに使用できる信頼できるソリューションになっています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ee4af94791-dd1a6f-cd5cc0) また、成熟したオープンソース フレームワークには大規模なサポートコミュニティがあることが多いため、チームは問題に遭遇したときにより多くの支援を受けることができます。  同時に、コミュニティ内の他の開発者がすでにいくつかの一般的な問題に対処している可能性があり、チームはこれらのソリューションから直接学ぶことで、作業の重複を回避できます。**3****シェルモデル、投票できますか?国内の大規模モデルの「殻」が一般的な現象になり、将来的に標準になる可能性が非常に高い場合、すべての投資家は問題に直面する必要があります。  これらの「殻」の大きいモデル会社で投資可能な会社を捜すことに固執するなら、どのように選べばよいか。これを考慮すると、非常に重要な要素があります。これらの大規模なモデル企業は「殻」に完全に依存しており、独立した研究開発の取り組みや計画を持っていないのか、それとも「殻」を妥協と移行の手段として利用しているが、明確な長期開発計画、革新的なビジョン、そして最終的には独立した研究開発に目を向ける能力を持っているのか?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f927a9c9dc-dd1a6f-cd5cc0) これら 2 つの状況は、異なる方法で処理する必要があります。  これら2つのタイプの企業を見るときに測定すべき重要な指標は、テクノロジーと製品のロードマップです。なぜなら、明確で将来を見据えたテクノロジーと製品のロードマップは、企業の長期的な戦略的意図とイノベーション能力を直接反映しているからです。 これは、企業が「シェル」から独立した研究開発に移行する計画があるかどうかを示すだけでなく、将来の技術開発の方向性と企業の潜在的な市場競争力も示しています。実際、ビジネスでは「シェル」と同じような方法で市場に参入することは珍しくありませんが、最終的には自社開発製品に依存してユーザーの認知を得ています。たとえば、モバイルインターネット時代のXiaomiは明確な例です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-822cabf829-dd1a6f-cd5cc0) 当初、Xiaomiのスマートフォンは、他のブランド、特にAppleのデザインと機能を単に模倣しているように見えました。 その初期の製品は、革新性の欠如で批判され、既存のデザインとオペレーティングシステム(AndroidベースのMIUIシステム)に依存していました。  しかし、Xiaomiはそれ以来、ソフトウェア(MIUIシステム)だけでなく、ハードウェア設計、機能革新、ユーザーエクスペリエンスの観点からも、独自のテクノロジーと製品ロードマップへの長期的なコミットメントを示してきました。例えば、自社開発の携帯電話チップ「Surge S1」は、携帯電話のコア技術分野におけるXiaomiの独立したイノベーションを示しています。時間の経過とともに、Xiaomiはより革新的なテクノロジーで市場で非常に高い評価と幅広いユーザーベースを獲得しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-13851e1113-dd1a6f-cd5cc0) 同様に、現在の「シェル」国内大規模モデル企業の中には、長期的な技術ルートを持つ企業が存在することも排除できません。  この観点から見ると、いわゆる「シェル」は、国産大型モデルの暗い見通しを意味するものではありません。業界の観点から見ると、AIの波の初期段階で「大きなフィルター」を乗り切ったのは、イノベーションの可能性を秘めた企業のみであり、今後、より多くの独立したイノベーションが出現する可能性があります。