出典:Titanium Media著者: Lin Zhijia 画像ソース: Unbounded AIによって生成国内の大型モデル技術の競争は加速しており、iFLYTEK XinghuoとZhipuによる最新製品の発売後、Baichuanも新しい大規模モデルの成果をもたらしました。10月30日朝、王暁川氏が設立したAI大型モデル会社「白川インテリジェンス」は、コンテキストウィンドウの長さが最大192Kで、約35万字を処理できるBaichuan2-192K大型モデルの発売を発表しました。**Baichuan Intelligenceによると、Baichuan2-192Kは現在、世界で最も長いコンテキストウィンドウであり、現在長いコンテキストウィンドウ(100Kのコンテキストウィンドウをサポートし、約80,000語を測定)をサポートする最高の大規模モデルであるClaude2の4.4倍であり、GPT-4(32Kコンテキストウィンドウをサポートし、約25,000語を測定)の14倍(1400%)です。 **これは、コンテキスト ウィンドウの長さで Claude2 を上回っているだけでなく、長いウィンドウ テキストの生成、長いコンテキストの理解、長いテキストの Q&A、要約などの品質でも Claude2 をリードしています。Baichuan2-192Kは、API呼び出しと民営化された展開の形で企業ユーザーに提供されると報告されています。 現在、Baichuan Intelligent は大規模モデルの API 内部テストを開始し、法律、メディア、金融、その他の業界のコア パートナーに公開しています。 Baichuan Intelligenceは、2023年4月10日にSogouの創業者で元CEOのWang Xiaochuan氏によって設立されたと報告されています。 そのコアチームは、Sogou、Google、Tencent、Baidu、Huawei、Microsoft、Byteなどの有名なテクノロジー企業のトップAI人材で構成されています。 現在、Baichuan Intelligent のチーム規模は 170 人以上で、そのうち 70% 近くが修士号以上の従業員であり、80% 以上が研究開発担当者です。過去200日間、Baichuan Intelligent は平均して 28 日ごとに大型モデルをリリースし、継続的に Baichuan-7B/13B、Baichuan2-7B/13B 4 つのオープンソースの無料商用大規模モデルと Baichuan-53B、Baichuan2-53B 2 つのクローズドソースの大規模モデルを、執筆、テキスト作成、その他の能力分野で業界で良いレベルに達しています。 現在、Baichuan-7Bと13Bの2つのオープンソースモデルは、多くの権威ある評価リストの中で最高のものであり、累積ダウンロード回数は600万回を超えています。大規模なAIモデルを構築する会社について、Wang Xiaochuan氏は、彼のチームの既存の技術ツールを使用して大規模なモデルを構築でき、同社の競合他社は大企業のオープンソースソリューションであると述べています。 また、Wang Xiaochuan氏は、チーム全体が大きすぎる必要はなく、100人で十分だと考えています。8月31日、白川インテリジェントは記録のために国家「生成人工知能サービス管理のための暫定措置」を先導し、最初の8社の中で今年設立された唯一の大規模モデルスタートアップであり、9月25日にBaichuan2-53B APIインターフェースを開設し、正式にTo B企業分野に参入し、商業化プロセスを開始しました。10月17日、白川智能は3億米ドルの戦略的資金調達のA1ラウンドを完了したと発表し、アリババ、テンセント、シャオミなどのテクノロジー大手と多くのトップ投資機関がこのラウンドに参加しました。 5,000万米ドルのエンジェルラウンドが加わったことで、Baichuan Intelligent の累計資金調達額は 3 億 5,000 万米ドル (約 25.430 万元) に達しました。Baichuan Intelligent は現在の具体的な評価額を開示しておらず、今回の資金調達ラウンドの後、同社はテクノロジーのユニコーンになったと述べるにとどめた。 一般的な定義によると、ユニコーンの評価額は10億米ドル(約72億6600万元)以上です。**Baichuan2-192Kのリリースで、Baichuan Intelligentは、Dureader、NarrativeQA、LSHT、TriviaQAなどの10の中国語と英語の長文Q&Aおよび抄録評価セットで優れたパフォーマンスを発揮し、そのうち7つがSOTAを達成し、他のロングウィンドウモデルを大幅に上回り、Claude2を全面的にリードしたと述べました。 ** Baichuan氏は、コンテキストウィンドウを拡張することで大規模なモデルのパフォーマンスを効果的に向上させることができるのは人工知能業界のコンセンサスであるが、コンテキストウィンドウが超長くなると、計算能力要件が高くなり、メモリ負荷が高まることを意味すると指摘した。 現在、業界では、スライディングウィンドウ、ダウンサンプリング、小型モデルなど、コンテキストウィンドウの長さを長くする方法がたくさんあります。 これらのメソッドはコンテキストウィンドウの長さを長くすることができますが、モデルのパフォーマンスに対する障害の程度はさまざまであり、言い換えれば、コンテキストウィンドウが長くなることと引き換えに、モデルの他の側面のパフォーマンスを犠牲にしています。 今回発売したBaichuan2-192Kは、アルゴリズムとエンジニアリングの最適化により、ウィンドウ長とモデル性能のバランスを実現し、ウィンドウ長とモデル性能の同時改善を実現しました。アルゴリズムに関しては、Baichuan Intelligent は RoPE および ALiBi 動的位置符号化の外挿スキームを提案し、解像度を確保しながら長いシーケンスに依存するモデルのモデリング能力を高め、ウィンドウ長が拡大すると、Baichuan2-192K のシーケンス モデリング能力は増加し続けます。 エンジニアリングの面では、自社開発の分散トレーニングフレームワークに基づいて、Baichuan Intelligent は複数のテクノロジーを統合および最適化し、モデルの特定の負荷に応じて最適な分散戦略を自動的に見つけることができる 4D 並列分散ソリューションの包括的なセットを作成し、ロングウィンドウのトレーニングと推論の過程でメモリ占有を大幅に削減します。Baichuan2-192Kは、より垂直的なシナリオと深く統合でき、人々の仕事、生活、学習に真に役割を果たし、業界のユーザーがコストを削減し、効率を高めるのに役立ちます。 たとえば、ファンドマネージャーが財務諸表を要約して解釈し、企業のリスクと機会を分析するのに役立ちます。 弁護士が複数の法的文書のリスクを特定し、契約書や法的文書を確認するのを支援します。 技術者が何百ページもの開発ドキュメントを読み、技術的な質問に答えるのを支援します。 また、スタッフが大量の論文をすばやく閲覧し、最新の最先端の進捗状況を要約するのにも役立ちます。現在、Baichuan2-192KはAPI呼び出しの形でBaichuan Intelligenceのコアパートナーに開放されており、金融メディアや法律事務所との協力に達しており、まもなく完全に開放されると述べています。Wang Xiaochuan氏のチームは、Baichuan Intelligent Baichuan2-192Kがアルゴリズムとエンジニアリングにおけるロングコンテキストウィンドウを革新し、ロングコンテキストウィンドウの実現可能性を検証し、大規模モデルの性能向上のための新しい科学研究の道を切り開いたと述べた。 同時に、その長い文脈は、業界がエージェントやマルチモーダルアプリケーションなどの最先端分野を探求するための優れた技術的基盤も築くでしょう。
Wang Xiaochuan氏は、GPT-4の14倍にあたる世界最長とされる最新の大型モデルを発表しました
出典:Titanium Media
著者: Lin Zhijia
国内の大型モデル技術の競争は加速しており、iFLYTEK XinghuoとZhipuによる最新製品の発売後、Baichuanも新しい大規模モデルの成果をもたらしました。
10月30日朝、王暁川氏が設立したAI大型モデル会社「白川インテリジェンス」は、コンテキストウィンドウの長さが最大192Kで、約35万字を処理できるBaichuan2-192K大型モデルの発売を発表しました。
**Baichuan Intelligenceによると、Baichuan2-192Kは現在、世界で最も長いコンテキストウィンドウであり、現在長いコンテキストウィンドウ(100Kのコンテキストウィンドウをサポートし、約80,000語を測定)をサポートする最高の大規模モデルであるClaude2の4.4倍であり、GPT-4(32Kコンテキストウィンドウをサポートし、約25,000語を測定)の14倍(1400%)です。 **これは、コンテキスト ウィンドウの長さで Claude2 を上回っているだけでなく、長いウィンドウ テキストの生成、長いコンテキストの理解、長いテキストの Q&A、要約などの品質でも Claude2 をリードしています。
Baichuan2-192Kは、API呼び出しと民営化された展開の形で企業ユーザーに提供されると報告されています。 現在、Baichuan Intelligent は大規模モデルの API 内部テストを開始し、法律、メディア、金融、その他の業界のコア パートナーに公開しています。
過去200日間、Baichuan Intelligent は平均して 28 日ごとに大型モデルをリリースし、継続的に Baichuan-7B/13B、Baichuan2-7B/13B 4 つのオープンソースの無料商用大規模モデルと Baichuan-53B、Baichuan2-53B 2 つのクローズドソースの大規模モデルを、執筆、テキスト作成、その他の能力分野で業界で良いレベルに達しています。 現在、Baichuan-7Bと13Bの2つのオープンソースモデルは、多くの権威ある評価リストの中で最高のものであり、累積ダウンロード回数は600万回を超えています。
大規模なAIモデルを構築する会社について、Wang Xiaochuan氏は、彼のチームの既存の技術ツールを使用して大規模なモデルを構築でき、同社の競合他社は大企業のオープンソースソリューションであると述べています。 また、Wang Xiaochuan氏は、チーム全体が大きすぎる必要はなく、100人で十分だと考えています。
8月31日、白川インテリジェントは記録のために国家「生成人工知能サービス管理のための暫定措置」を先導し、最初の8社の中で今年設立された唯一の大規模モデルスタートアップであり、9月25日にBaichuan2-53B APIインターフェースを開設し、正式にTo B企業分野に参入し、商業化プロセスを開始しました。
10月17日、白川智能は3億米ドルの戦略的資金調達のA1ラウンドを完了したと発表し、アリババ、テンセント、シャオミなどのテクノロジー大手と多くのトップ投資機関がこのラウンドに参加しました。 5,000万米ドルのエンジェルラウンドが加わったことで、Baichuan Intelligent の累計資金調達額は 3 億 5,000 万米ドル (約 25.430 万元) に達しました。
Baichuan Intelligent は現在の具体的な評価額を開示しておらず、今回の資金調達ラウンドの後、同社はテクノロジーのユニコーンになったと述べるにとどめた。 一般的な定義によると、ユニコーンの評価額は10億米ドル(約72億6600万元)以上です。
**Baichuan2-192Kのリリースで、Baichuan Intelligentは、Dureader、NarrativeQA、LSHT、TriviaQAなどの10の中国語と英語の長文Q&Aおよび抄録評価セットで優れたパフォーマンスを発揮し、そのうち7つがSOTAを達成し、他のロングウィンドウモデルを大幅に上回り、Claude2を全面的にリードしたと述べました。 **
アルゴリズムに関しては、Baichuan Intelligent は RoPE および ALiBi 動的位置符号化の外挿スキームを提案し、解像度を確保しながら長いシーケンスに依存するモデルのモデリング能力を高め、ウィンドウ長が拡大すると、Baichuan2-192K のシーケンス モデリング能力は増加し続けます。 エンジニアリングの面では、自社開発の分散トレーニングフレームワークに基づいて、Baichuan Intelligent は複数のテクノロジーを統合および最適化し、モデルの特定の負荷に応じて最適な分散戦略を自動的に見つけることができる 4D 並列分散ソリューションの包括的なセットを作成し、ロングウィンドウのトレーニングと推論の過程でメモリ占有を大幅に削減します。
Baichuan2-192Kは、より垂直的なシナリオと深く統合でき、人々の仕事、生活、学習に真に役割を果たし、業界のユーザーがコストを削減し、効率を高めるのに役立ちます。 たとえば、ファンドマネージャーが財務諸表を要約して解釈し、企業のリスクと機会を分析するのに役立ちます。 弁護士が複数の法的文書のリスクを特定し、契約書や法的文書を確認するのを支援します。 技術者が何百ページもの開発ドキュメントを読み、技術的な質問に答えるのを支援します。 また、スタッフが大量の論文をすばやく閲覧し、最新の最先端の進捗状況を要約するのにも役立ちます。
現在、Baichuan2-192KはAPI呼び出しの形でBaichuan Intelligenceのコアパートナーに開放されており、金融メディアや法律事務所との協力に達しており、まもなく完全に開放されると述べています。
Wang Xiaochuan氏のチームは、Baichuan Intelligent Baichuan2-192Kがアルゴリズムとエンジニアリングにおけるロングコンテキストウィンドウを革新し、ロングコンテキストウィンドウの実現可能性を検証し、大規模モデルの性能向上のための新しい科学研究の道を切り開いたと述べた。 同時に、その長い文脈は、業界がエージェントやマルチモーダルアプリケーションなどの最先端分野を探求するための優れた技術的基盤も築くでしょう。