AI アプリケーションのロードマップ: 制御性が最強のロードマップ

出典: セミライト

著者: 王永剛

  • Wang Yonggang: SeedV Lab 創設者兼 CEO、Innovation Works AI Engineering Institute 理事長
  • Tong Chao: SeedV Lab の共同創設者兼チーフプロダクト

生成 AI の応用シナリオはどこですか

Stable Diffusion や ChatGPT などの生成 AI テクノロジーは、2023 年上半期に IT ベンチャー キャピタル界から最も注目を集めています。新しいテクノロジーの壮大な波から立ち直り、生成 AI の実装の最適な方向性はどのようなアプリケーション シナリオであるかを真剣に考え始めたとき、多くの人は依然としてテクノロジーと市場の関係が複雑であり、それを実現するのが難しいことに気づくでしょう。生成 AI の実装に最適なパスを整理します。

  • 投資家: 過去数カ月の間に、第一線のベンチャーキャピタル機関がすべて動員され、非常に忙しい状態になっているが、誰もが欲しがる大手の4、5社の大規模モデル起業プロジェクトを除いて、他のAIGCはそうではないことが判明した。プロジェクトが不透明で、あえて投資しない、AI アプリケーションが将来どこに発展するかわかりません。
  • アナリスト: いくつかの主要な大規模モデル プロジェクトは巨額の投資を行っており、高いリスクを抱えています。すべての B 側および政府側のアプリケーションは民間の展開と個人データによって制限されており、サイクルが長く、実装が困難です。ほとんどの C -サイドアプリケーションもあまりにも浅く、テキストと画像生成プロジェクトの同質性は深刻で、1、2つの優れた論文の後にビジネスを開始するのが一般的ですが、チーム自体が具体的なアプリケーションの方向性を把握できません。 ..

ここでの考え方の最大の核心は次のとおりです。

  • ほとんどの人は依然として無意識のうちに、生成 AI を対話、記事、写真を生成するための一連のツールとして考えています。この固定観念によれば、これはコピーライターとデザイナーの効率向上に役立つだけであり、どうしてこれを破壊的な変化と呼ぶことができるのでしょうか?
  • 生成 AI が汎用人工知能 (AGI) の夜明けを示している兆候は数多くありますが、短期的な価値判断に制限されている人々は常にこう言います。百聞は一見に如かず。今のAIもおしゃべりしたり、記事を書いたり、絵を描いたりしているのではないでしょうか?

明らかに、単一の観点または単一の時間ノードのみから生成 AI の応用の見通しを分析することはお勧めできません。生成AIの開発につながる、シンプルで使いやすい思考モデルはあるのでしょうか?

制御性に関する思考モデルを構築する

私たちは、生成 AI はデスクトップ コンピューティングやモバイル コンピューティングと比較できる情報産業革命であり、さらに破壊的な効果をもたらすと信じています。破壊的な変化は決して一夜にして達成されるものではなく、生成型 AI の継続的な開発と進歩によって徐々に実現されます。生成 AI がどのような新製品、新しいプラットフォーム、新しい市場、新しい機会をもたらすかを明確に知りたい場合は、製品選択とプロジェクト選択の指針となる、シンプルで理解しやすい思考経路があると考えています。

**生成 AI の制御性が高まるほど、市場や業界に対する破壊的影響も大きくなります。 **

このパスはグラフで簡単に表すことができます。

生成されたコンテンツに対する生成 AI の制御性が向上し続けるにつれて、適用可能な生成 AI のアプリケーション シナリオは拡大し、深化していきます。量的な変化は質的な変化をもたらします。ドメインのしきい値を突破すると、生成 AI は既存の製品エコロジーを完全に変革し、製品に真のインテリジェントな要素を与えることができます。

進化の過程で、生成型 AI の制御性は大きく 6 つの段階を経ます。最も基本的なテキスト生成を例に挙げます。

フェーズ 1: 制御不能

20 年以上前、N グラム アルゴリズムに基づく統計言語モデルでも、連続テキスト コンテンツを生成できました。ただし、結果として生じる結果はほとんど制御できません。このような初期の形式の「生成 AI」は、製品化される可能性がほとんどなく、ましてや既存の市場を破壊する可能性はほとんどありません。

フェーズ 2: 全体的な方向は制御可能です

LSTM または RNN ベースのテキスト生成から初期の GPT (GPT-2 など) テキスト生成に至るまで、生成 AI は人間に似た言語を記述する能力を徐々に獲得してきました。この段階の記述能力があれば、基本的には流暢な文章が得られ、内容も人間の指示にほぼ沿ったものになりますが、細部や構造、ロジックなどは制御できないため、真に役立つ製品に変えることはまだ困難です。

フェーズ 3: 制御可能な構造またはローカル ロジック

GPT-3 から ChatGPT (GPT-3.5) まで、生成 AI は初めて、生成されたコンテンツの構造とローカル ロジックを制御できるようになりました。テキスト作成と複数ラウンドの会話は、この時期の 2 つの典型的なアプリケーション エコロジーです。前者は記事の自動要約、法的文書の生成、マーケティングコピーの生成などの実用的なシナリオをサポートでき、後者は会話型検索、言語学習、インテリジェントな顧客サービス、仮想人物、インテリジェントなゲームキャラクターなどの一部のニーズを満たすことができます。

フェーズ 4: 事前の思考連鎖は制御可能

GPT-3.5 から GPT-4 にかけて、生成 AI の論理的推論能力は大幅に向上しました。生成 AI は初めて、強力な分析能力 (ニュース報道からのデータの抽出や傾向の要約など)、制御能力 (人間の言語を複雑なシステム制御命令に変換するなど)、および予備的な論理的推論能力 (単純な質問に数学で答えるなど) を備えています。 、論理的な問題)。生成できるテキスト コンテンツは、データ、テーブル、コード、命令シーケンス、ワークフロー、ツール チェーンなどの構造化テキストおよび半構造化テキストにも拡張されます。これは直接、Copilot (直訳すると「副操縦士」) を特徴とする今日の多数の新しいツールやシステムにつながりました。

フェーズ 5: 複雑な論理的推論が制御可能

もちろん、今日の GPT-4 がテキストを生成するとき、制御できる論理的思考の連鎖はまだ初期段階にあります。すべてがうまくいけば、人類はそう遠くない将来、複雑な論理的推論を正確に制御できる次世代の生成型AIを開発すると予想されています。このような AI は、記憶、学習、計画、意思決定などの高度な論理的推論能力を備えています。これらの機能は、過去数十年間の人間とコンピューターの相互作用を完全に覆し、効率化ツール、コンテンツ プラットフォーム、ビジネス プロセスの自動化、ロボット、オペレーティング システム、スマート デバイスなどのシナリオにおける人間とコンピューターの関係を再定義するのに十分です。

フェーズ 6: 制御可能なルールまたは原則

より前向きな観点から見ると、人間の思考の最高レベルの現れは次のとおりです: 1. 帰納的思考に基づいて原則を発見し、ルールを策定する; 2. 演繹的思考に基づいて原則またはルールを特定のシナリオに適用する。生成型AIの進化の理想形は、人間の思考にアプローチし、人間の思考に匹敵するルールや原則を生成し、それを適用することです。ルールや原則が制御可能な「自由の王国」に到達すると、生成型 AI は反復して自己改善する強力な能力を持ち、人間と同じようにシステムのルールや世界のルールを設計し、人間の科学者と科学研究を行うこともできるようになります。 。

制御性と一般的なアプリケーションの方向

生成AIの制御性の向上は、適用分野の大幅な拡大をもたらしました。次の図を使用して、さまざまな開発段階における制御性と生成 AI の最適な適用方向との関係を要約します。

制御可能性に基づいて、開発の各段階で、生成 AI によってサポートされるアプリケーションの方向性は、単純でローカルなニーズを満たすことから、ドメインとプラットフォームのニーズを満たすために段階的に開発され、最終的には製品とビジネス モデルに蓄積されるまで、拡大と深化を続けます。破壊的な変化。量的変化から質的変化へのプロセスにおいては、思考の連鎖や論理的推論が制御可能か、またどの程度正確に制御できるかが最も重要な要素となります。

制御性と特定の応用例

生成AIの制御性を踏まえ、現在および近い将来における生成AIの最適な適用方向を4つのカテゴリーに分け、各カテゴリーにおける代表的な適用事例と生成AIの適用を比較したものが下図です。開発のさまざまな段階がリンクされています。

コンテンツ作成ツール/コンテンツ プラットフォーム

コンテンツ作成ツールは、生成 AI を実装するための最も直接的かつ最速のシナリオです。生成 AI の制御性の向上により、コンテンツ作成タスクは単純なテキストや画像の作成から、ビデオ、3D、アニメーション、ゲーム、映画、仮想世界などの複雑な自動作成へと移行します。 AI の助けを借りて、本来はプロのチームやプロのツールにのみ属していた能力を、すべての一般人が持つことができるようになります。一般の人々の創造的欲求が大きく解放されると、新しいコンテンツ形式で共有、視聴、購入、交流するという高次のニーズが、新世代のコンテンツプラットフォームの誕生、発展、成長を確実に推進することになるでしょう。

ビジネスオートメーション/エンタープライズサービス

データ セキュリティ、プライベート展開、コンテンツの正確性、コンプライアンスなどの理由により、ビジネス プロセスには生成 AI の制御性に対する非常に高い要件が求められます。現在、生成 AI が最も適しているビジネス分野には、マーケティングにおけるコンテンツ作成や電子商取引におけるユーザー インターフェイスが含まれる可能性があります。また、生成AIは、SQLなどの中間コードの自動生成、データの自動収集・分析、レポートの自動生成、ビジネスプロセスの自動接続などにより、業務効率を大幅に向上させることもできます。今後、生成型AIの制御性の向上により、ビジネスプロセスにおける計画、意思決定、最適化などの主要プロセスに、より最先端のAI技術が取り入れられるようになります。

パーソナル アシスタント/プロフェッショナル アシスタント

私生活やオフィスのシナリオにおいて、生成型 AI は徐々にさまざまな形の「アシスタント」として機能し、数年以内に人間と AI のコラボレーションの新しいエコシステムを確立するでしょう。生成型 AI がどの程度制御可能であるかによって、私たちの生活や仕事における AI アシスタントがどの程度賢く、どのような問題を解決できるかが根本的に決まります。生成型 AI が一部の仕事において人間の秘書、運転手、翻訳者、弁護士などと同等のレベルを獲得すれば、AI アシスタントはコンピューターや携帯電話に代わる新世代の人気電子製品となるでしょう。

インフラストラクチャ/開発ツール/OS/検索エンジン

生成型 AI のプログラミング機能、データ処理機能、システム設計機能、知識処理機能は、開発ツール、データベース、検索エンジン、オペレーティング システムに新しい設計コンセプトと時代を超えた新機能を提供します。将来、AIを核としたオペレーティングシステムやAIを核としたインテリジェントコンピューティングプラットフォームが誕生できるかどうかは、生成AIの複雑な論理的推論能力がどこまで到達できるかにかかっています。

マルチモーダル AI のアプリケーション機能の進化

単純なテキスト生成や画像生成と比較して、サウンド、ビデオ、3D シーン、アニメーション、複雑なストーリーラインを含むマルチモーダル システムは、人間の常識や本来のニーズにより合致しており、明らかに、より広範囲にわたる応用の可能性を秘めています。マルチモーダル AI の技術的現状と展望については、この記事の著者による別の記事を参照してください。

GPT後の時代では、マルチモダリティが最大のチャンスとなる マルチモダリティの分野では、現在および将来の生成型 AI は、おおよそ次の図に示す状況に従って進化および蓄積され、革新的な新しいアプリケーション、新しいプラットフォーム、さらには破壊的な新しいビジネス モデルを生み出し続けると考えられます。

使用許可

上記のすべてのアプリケーション ロードマップの写真とテキスト コンテンツは、CC BY 4.0 ライセンスに基づいて SeedV Lab によってリリースされています。出典元(SeedV研究室)を明記の上、どなたでもご自由に使用、改変、再公開していただけます。

上記のアプリケーション ロードマップの写真は、次の場所でもオープン ソースとして公開されています。ぜひアクセスしてください (記事の最後にある [原文を読む] を直接クリックしてアクセスできます)。

github.com/SeedV/generative-ai-roadmap

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)