今年 6 月に、大手メーカーが ChatGPT に似た製品をアップグレードしました。 6月9日、XunfeiはXinghuo Cognitive Big Modelのアップグレード版を発売し、6月13日、ChatGPTのような製品をリリースした後、360は再び360 Smart Brain Big Model Application Conferenceを開催した。
従来のデジタルヒューマンは決められたスクリプトに従って出力するだけでしたが、大型モデルの時代では360デジタルヒューマンはカスタマイズできるため、人にはデザインがあり、記憶があり、経験があり、現在360には200以上のキャラクターが存在します。デジタルヒューマンスクエアプラットフォームは、デジタルセレブとデジタル従業員の2つのカテゴリーに分かれています。 360 は、将来的には誰もが自分専用の AI アシスタントを持ち、時間と空間を超えて仮想空間で古代の人々とコミュニケーションをとる機会を得られるようになることを望んでいます。
Baidu Apollo を例に挙げると、まずグラフィック情報を使用して元のモデルを事前トレーニングし、アルゴリズムを使用してストリートビュー画像データを識別、位置特定、セグメント化して、それらをエンコーダーに入れてベース ライブラリを形成します。ストリートビューのデータプールに基づく写真と文字情報の対応付け。
Baidu は、半教師あり手法を使用して 2D および 3D データを最大限に活用し、大規模な知覚モデルをトレーニングします。小型モデルを複数のステップで蒸留することにより、小型モデルのパフォーマンスが向上すると同時に、小型モデルは自動ラベル付けを通じてトレーニング用にカスタマイズされ、長距離視覚 3D 知覚能力を強化し、向上させるために使用されます。マルチモーダル知覚モデルの知覚効果。
大きなモデルが 2.0 に向けて戦うとき、どのような最適化とブレークスルーがもたらされるのか
原文:The Paper、著者:Che Xingyun
今年 6 月に、大手メーカーが ChatGPT に似た製品をアップグレードしました。 6月9日、XunfeiはXinghuo Cognitive Big Modelのアップグレード版を発売し、6月13日、ChatGPTのような製品をリリースした後、360は再び360 Smart Brain Big Model Application Conferenceを開催した。
2月頃に発売された大型モデルとは異なり、最近各社から発売されるバージョンアップ製品はアプリケーション層に偏っており、数千世帯の利用を容易にすることを目的としている。
現在のリリースから判断すると、360 Intellectual Brain は当初、テキストからテキスト、表、画像を生成することに加え、画像からテキストと画像を生成し、ビデオからテキストを生成し、テキストとビデオからビデオを切り出すクロスモーダル生成機能を備えていました。さらに、「デジタル ヒューマン」を再定義して、「魂、人間のデザイン、記憶を持つ」カスタマイズ可能な独自の「人工知能」をユーザーに提供します。
周宏儀氏は記者会見で、「国内大型モデルとChatGPTの差は2年だとかつて言ったが、今はこの言葉を撤回したい」とこれまでの見方を変え、レベルは同等だ。 GPT3.5でこのスピードで開発すれば、あっという間にGPT4に追いつき、あるいは追い越してしまうでしょう。
初期バージョンのリリースから 360 Smart Brain の正式リリースまでの 4 か月以内に、Zhou Honyi 氏はこれほど大きな変化を目にしましたか?
科学技術の巨人ハンティング大型モデル
2023年中関村フォーラムで発表された「中国人工知能大規模モデル地図研究報告書」によると、現在、中国の人工知能大規模モデルは精力的な発展傾向を示している。不完全な統計によると、現時点でパラメーターが 10 億を超える大規模モデルが全国で 79 個リリースされています。
しかし、大手テクノロジー企業の大規模モデルのパラメータは比較的大きく、アリババ同義前文大規模モデルのパラメータは10兆を超え、テンセント・フンユアン大規模モデルとファーウェイの盤古大モデルのパラメータはすべて1兆を超えています。 、Baidu Wenxin の大規模モデルには 1 兆を超えるパラメータがあり、大規模モデルのパラメータ ボリュームは 2,000 億以上、JD Yanxi の大規模モデルのパラメータ ボリュームは 1,000 億であり、世界のテクノロジー企業のパラメータ ボリュームは垂直産業は一般に 1,000 億以上であり、科学研究機関の大規模モデルのパラメータボリュームは 1,000 億レベル以下です。
大型モデルのレイアウト システムの観点から見ると、大手テクノロジー企業は、コンピューティング パワー層、プラットフォーム層、モデル層、アプリケーション層の 4 つを 1 つにまとめた包括的なレイアウトを実行しています。 Baidu、Ali、Huawei はいずれも、Baidu の「Kunlun コア + フライング パドル プラットフォーム + Wenxin 大型モデル + 業界アプリケーション」、Ali の「Hanguang 800 チップ + M6-OFA ベース」など、チップからアプリケーションまで独立した研究開発の包括的なレイアウトを持っています。 + Tongyi 大型モデル + 業界アプリケーション」、Huawei の「Shengteng チップ + MindSpore フレームワーク + Pangu 大型モデル + 業界アプリケーション」。
さらに、Kingsoft Office も 5 月 31 日に WPS AI をリリースしました。現在、WPSAI は、ライト ドキュメント、テキスト、表、プレゼンテーション、PDF などの Kingsoft Office のオフィス コンポーネントに接続されていますが、将来的には、AIGC、読解機能をアンカーする予定です。 、質問と回答、人間とコンピュータの対話、戦略的方向に沿った開発、および Kingsoft Office 製品のフルラインへのアクセス。
この路線へのさまざまな大手メーカーの急速な参入は、主に規制当局による業界の発展を規制するための措置の迅速なフォローアップと導入によるものであり、トップレベルの組織の護衛により、各大手メーカーは自然に研究開発に投資し、自信を持って製品を発売します。
今年3月に大規模モデルが一括投入されて以降、AIの規制方針が徐々に明らかになり、産業応用の方向性も示されている。
業界全体の発展を振り返ると、4月11日には「生成型人工知能サービス管理手法」が公開されコメント募集、5月30日には情報通信研究機構と共同でオープン人工知能モデル「Kite」を準備中ライセンスを取得し、次のステップは「Zhikite オープン人工知能モデル ライセンス (コメント用草案)」を発行することです。
その後、一線都市は共同で「世界的に影響力のある人工知能イノベーションソースの構築を加速する北京の実施計画(2023~2025年)」を発表した。
これに関連して、Zhou Honyi 氏は、国内の大型モデルが ChatGPT との差をすぐに縮めるだろうと信じており、これは理解しやすいようです。
360 Smart Brain の違いは何ですか
周宏毅の計画によると、360大型モデルは、シーン化、製品化、フラット化、垂直化を考慮した大型モデルの継続的なアップグレードに基づいています。
この開発戦略の下で、360 Smart Brain は消費者 (ユーザーパーソナル AI アシスタント)、中小企業 (SaaS 垂直アプリケーション)、企業/政府/都市 (民営化導入モデル)、産業 (業界垂直モデル) およびその他の 4 つを実現できます。主なアプリケーションシナリオ。
上記のさまざまなシナリオのニーズをより適切に満たすために、一般的な大規模モデルは、テキストの入力からテキストの出力への変換を完了し、画像とビデオを理解し、既存のモデル上で画像とビデオを生成できるようにする必要があります。大型模型を作るのと同じ基礎 「耳」と「目」で「デジタルヒューマン」を作る基礎を作ります。
従来のデジタルヒューマンは決められたスクリプトに従って出力するだけでしたが、大型モデルの時代では360デジタルヒューマンはカスタマイズできるため、人にはデザインがあり、記憶があり、経験があり、現在360には200以上のキャラクターが存在します。デジタルヒューマンスクエアプラットフォームは、デジタルセレブとデジタル従業員の2つのカテゴリーに分かれています。 360 は、将来的には誰もが自分専用の AI アシスタントを持ち、時間と空間を超えて仮想空間で古代の人々とコミュニケーションをとる機会を得られるようになることを望んでいます。
デモ集会で、周宏儀は「諸葛孔明」に、今日の幽霊や動物の素材になっているとどう思うかと尋ねると、デジタルマンは諸葛孔明の口調で「過去と現在の運命は避けられない」と答えた。今日の状況では、世界は混乱に陥っています。老いてもなお世界を目指します。今の若者たちは私を幽霊や動物の素材として利用していますが、私はこの変化を快く受け入れます。そして、若い友人たちが前の道を勇敢に前進し、より良い未来を創造することを願っています。
同時に周宏儀氏は、将来のデジタルヒューマンの形態にも独自の目標、計画、分解機能があり、タスクを完了するためにさまざまな垂直モデルを呼び出すことができるようになると強調した。
しかし、これらの機能は実際には既存の大規模モデルアプリケーションをベースに最適化したものであり、新たな分野を切り開いたものではありません。しかし実際には、大型モデルが画期的な進歩を遂げたとき、最も創造的な応用シナリオは無人運転です。
** 無人運転には追い越し車線に入る可能性があります **
無人運転の分野を振り返ると、2016年から大手メーカーがこの分野に展開してきたが、今年まではどのメーカーも真の無人運転を実現できていない。
現在、L2+ レベルの無人運転システムには、手動ラベル付け後のモデル トレーニングに使用できる多次元データを提供するために、10 台以上のカメラ、1 ~ 2 台のライダー、または 3 ~ 5 台のミリ波レーダーが必要です。画像を認識できる大型モデルの出現後は、手動ラベル付けに必要な時間コストと材料費は大幅に減少します。
2023年4月のMomo Zhixing DriveGPTの記者会見によると、車線、交通参加者、信号機などの情報を取得するために、業界で手作業でラベルを付けるコストは写真1枚あたり約5元で、Momo DriveGPTのコストは0.5元です。テクノロジー企業の大規模モデルトレーニングが成熟すると、単一画像の自動ラベル付けの限界コストは 0 に近づき、平均コストはさらに低下すると考えられます。
Kaiwang Data Products Projectの副社長であるZhang Peng氏によると、2023年2月現在、手動によるラベル付けがデータラベル付けの主な方法であり、機械によるラベル付けがそれを補っており、データラベル付けの95%は依然として主に手動によるものであるという。大規模モデルの介入により、この業界の効率が大幅に向上します。テスラを例に挙げると、手動ラベル付けチームは 2021 年に 1,000 人以上を擁し、2022 年には 200 人以上を解雇する予定です。
さらに、大型モデルの時代には、サードパーティテクノロジー大手は、大型モデルのデータ生成機能に依存しながら、完全なツールチェーンを提供することで、OEM が独自の自動運転アルゴリズムとデータ閉ループシステムを構築できるよう支援することが期待されています。データ分野での差が縮まれば、Androidの自動運転時代が到来すると予想されている。
現在、大規模モデルは、データ閉ループ、シミュレーション、認識アルゴリズム、規制および制御アルゴリズム、その他の分野を可能にするために使用されています。そして、マイクロソフトやエヌビディアなどの大手企業は、大型モデルや自動運転のレイアウトをめぐって競争しているか、あるいは新たな火花を散らすことになるだろう。
さらに、大型モデルの登場により業界の分業も促進され、「車輪の再発明」が回避され、センサーやチップの反復が加速され、システムコストが大幅に低下すると予想されます。大規模モデルの開発者と自動運転産業チェーンの関係者は、総合的な恩恵を受けることが期待されます。
次に、テキストと画像を通じて特定のシーン (特急車両、車椅子、子供など) を検索およびマイニングし、車両側モデルでカスタマイズされたトレーニングを実行できるため、ストック データの活用が大幅に向上します。
Baidu は、半教師あり手法を使用して 2D および 3D データを最大限に活用し、大規模な知覚モデルをトレーニングします。小型モデルを複数のステップで蒸留することにより、小型モデルのパフォーマンスが向上すると同時に、小型モデルは自動ラベル付けを通じてトレーニング用にカスタマイズされ、長距離視覚 3D 知覚能力を強化し、向上させるために使用されます。マルチモーダル知覚モデルの知覚効果。
もう 1 つの主要企業である SenseTime も、AIGC を使用して実際の交通シーンや自動運転システムをトレーニングするための困難なサンプルを生成でき、マルチモーダル データを大規模モデルの入力として使用して、交通機関の上限を改善できると公に述べています。コーナーケースのシーンに対するシステムの認識。
同時に、自動運転のマルチモーダル大規模モデルは、知覚と意思決定の統合を実現でき、出力端の環境デコーダを通じて3D環境を再構築して、環境の視覚的な理解を実現できます。行動デコーダは完全な経路計画を生成でき、モチベーション デコーダは使用可能 自然言語は推論プロセスを記述し、自動運転システムをより安全で信頼性の高いものにします。
大型モデルが上記の機能を実現すれば、今後ますます無人走行の敷居は低くなり、大手メーカーが無人走行プロジェクトの推進を加速するとともに、より多くの新規参入者がこの分野に参入し、必要な道路の整備が可能となる可能性がある。道路ナビゲーションに加えて、道路清掃ロボットの経路計画をさらに最適化するなどの計画機能の追跡。
今見ると、2月から3月の大型モデルの集中リリース期間、4月から5月の製品開発期間と方針の方向性が徐々に明確になった後、6月からAI大型モデルの集中リリース期間に入った。スケールモデル製品やアプリケーションの提供も可能となり、OpenAI APIの低価格化にも直結します。
近い将来、AI テクノロジーは反復され続け、アプリケーションは進化し続けるでしょう。同時に、ますます多くの大手テクノロジー企業がこの軌道に参入する製品を発売し、業界の繁栄を後押しし、より多くの成果をもたらすでしょう。巨大なユーザーベースを持つテンセントなど、市場の需要を満たす GPT のような製品も、6 月 19 日に大型モデルの分野における技術ソリューションをリリースしました。
これらの企業が連携すれば、業界の発展は急速に進み、C エンド ユーザーがすぐにこの製品を使用できるようになるということも意味します。自分自身の能力。