Web2からWeb3へ:私がAIトラックに強気な理由

著者: Zixi.eth, Matrix Partners China Investor 出典: X (formerly Twitter) @Zixi41620514

最近では、Web2/Web3 AIトラック、グローバルモデルトラックのオープンソースモデルコミュニティ、データトラック、および大規模モデルに対応するさまざまなミドルウェア(ファウンデーションモデルからインダストリモデルへのフルプロセスサービス、一部のアプリケーションなど)に焦点を当て始めています。 私たちは、あらゆる種類の起業家が私たちとコミュニケーションをとることを歓迎し、AIが長期的な軌道になると信じています。

第1号では、先日策定したデータトラックにおけるデータラベリング業界も、今年の私にとって非常に満足のいく目標であることをお伝えします。

AI開発は、データ収集、クリーニング、アノテーション、エンハンスメントのプロセスを主体としたデータ準備と、モデル構築・学習・チューニング・展開を主体としたアルゴリズム開発に分けられます。 その中でも、マルチモダリティ、高精度、強力なカスタマイズなど、新時代のAIのデータに対するニーズが多様化しているため、新時代のAIデータの人的労働への依存度も非常に高く、AIと人との円滑なインタラクションをさらに改善して効率を高めることも必要です。 データのラベル付けとは、モデルのトレーニングに必要なデータサンプル内の特徴要素の識別と区別を指します。 AIの開発はまだ教師あり学習の段階にあるため、ディープラーニングに代表されるAIアルゴリズムモデルの学習プロセスにおけるデータ含意情報やデータ間のロジックの学習と検証は、データの特徴識別に基づいて実現され、データの準備、さらには人工知能プロジェクト開発の中核的なタスクの1つであるデータのアノテーションが必要です。 データ準備ワークフローの他の部分と同様に、データのラベル付けは労力に大きく依存します。 長い作業サイクルと莫大な人件費は、AI産業の発展を制限する主な要因の1つになっています。 データアノテーションサービスの供給側の問題点は、自動化ツールに対する市場の需要を生み出し、インテリジェントなデータアノテーション技術の開発と大規模な適用を促進しました。

図1:データ取得からAI対応データセットまで

hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png

現在、データアノテーションの最大のアプリケーションの下流であるインテリジェントドライビングの分野では、猫や犬、電柱、ベビーカーなど、さまざまなシナリオにラベルを付けるために、依然として多数の人間が必要です。 たとえば、Scale AIはOpenAIにとって重要なデータプロバイダーであり、OpenAIのテキスト/画像データアノテーションを支援するために、世界中の第三世界の国々に独自のデータアノテーションスタジオを設立しています。

しかし、AIの進歩に伴い、ワークフローにおける事前注釈の割合は徐々に増加しています。 初期の頃は、機械学習データセットを構築して蓄積するために、データアノテーションはほとんど手作業で行われていました。 比較的非効率的でコストがかかりますが、注釈が適切である限り、マシンに提供されるデータは大きな利点があります。 時が経つにつれて、手動注釈の焦点は、コストを削減するために、米国からベネズエラやフィリピンなどの第三世界の国々に徐々にシフトしてきました。

モデルが開発されるにつれて、自動データアノテーションの精度が向上し、モデルがデータを前処理して人間によるアノテーションに送信したり、自動モデルによって提供されるアノテーション結果を手動でレビューして修正したりするなど、手動アノテーションを支援するためにモデルを使用できます。 純粋な手動アノテーションと比較して、AI支援アノテーションはデータアノテーションの速度を加速します。 現在、Scale AIなどの世界最大級のデータラベリング企業は、データラベリングプロセスへの人間の関与の割合を減らすことに取り組んでいます。

事前注釈はコンピュータビジョンの分野では良い成果を上げていますが、言語と大規模モデルの新時代において、事前注釈はまだ非常に未熟であり、人間の労働に完全に取って代わることはできません。 その理由は、以下の通りである:1. 精度が低く、特に複雑なタスクやエッジケースを扱う場合。 2.サンプルバイアスとモデル幻覚の問題。 3. 一部の業種では、対象分野の専門家によって注釈が付けられた大規模なデータセットが必要です。 4.事前注釈のスケーラビリティは、特に小さな言語や一般的でないシナリオでは貧弱であり、コストが高く、品質が低く、手動で完了する必要があります。

要約すると、事前注釈は短期的には手動注釈に完全に取って代わることはなく、この2つは共存します。 手作業によるアノテーションの割合は減少する可能性がありますが、監査人はアノテーションプロセス中にデータアノテーションを確認する必要があります。

図:事前ラベル付け中のデータラベリングプロセス

KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png

データアノテーション業界は新しいものではなく、インテリジェントドライビングの台頭とともに17/18年に出現し始めました。 下のグラフは、中国におけるデータラベリングプロバイダーの予測市場規模を示しており、米国におけるデータラベリングの市場規模は中国の約3〜5倍であることは言及する価値があります。

データラベリング業界は比較的細分化された市場であり、技術的障壁が極端に高い分野ではなく、技術的、人的、組織的な管理上の障壁がそれぞれ3分の1を占める分野のようなものです。 この分野のコアコンピタンスは、主に次の側面に反映されています:1。 価格 2. 品質 3. 専門知識と知識のカバー率(多様性?)4. 速度

すべての人が多くの安価なデータを必要とするため、価格は明らかです。 価格圧力は地理的な裁定取引の一形態を駆動しますが、先進国では、データラベルを完成させるために給与を支払うのに1ドルかかる場合がありますが、発展途上の中国では0.5ドルしかかからず、フィリピンではわずか0.1ドルしかかかりません。 したがって、市場での解決策の1つは、第一世界の国々に注文を出し、第三世界の国々で人々を募集して、直営のスタジオを通じて問題を解決することです。

データ品質も分かりやすく、大型モデルやインテリジェントドライビングの分野では高品質なデータが求められます。 モデルに供給されるデータの品質が低いと、大規模なモデルのパフォーマンスも低下します。 データ品質の問題を解決するための効果的な解決策の1つは、モデルの事前ラベル付けによって生データを生成し、手動で注釈を付けた後、強化学習と人間フィードバックを継続的に実行して、データラベル付けの品質を向上させることです。 または、チームは下流の顧客向けのデータラベリングプロセスについて非常に明確にし、データアノテーションスタッフがSOPに従ってアノテーションして品質を向上させることができるように、標準作業手順(SOP)を作成できる必要があります。

しかし、専門知識と知識カバレッジをどのように理解すればよいのでしょうか? 3つの例を見てみましょう。

1.これは一般的なモデルではかなりの課題です。 大きなテキストモデルに注釈を付けるのは比較的簡単かもしれませんが、中国語/英語/フランス語/ドイツ語/ロシア語/アラビア語などの複数の言語に注釈を付けることができる人を見つける必要があり、データラベリング会社が世界規模でこれほど多くの分散した人材を採用して管理する方法は課題になります。

  1. ボイスボット/デジタルヒューマンの分野でのAIアプリケーションのスタートアップを検討する。 スタートアップ企業には、社内にデータアノテーションチームを立ち上げる時間、人的資源、資金がないことがよくあります。 彼らは、四川訛り、広東訛り、上海訛り、東北訛りなどの中国語ファミリーと、北米英語アクセント、イギリス英語アクセント、シンガポール英語アクセントなどの英語ファミリーのラベル付けを支援するアウトソーシングチームを見つける必要がありました。 これらのタスクを処理できる優れたデータアノテーションスタジオを市場で見つけることは非常に難しい場合があります。 直販や下請けを採用すると、受注から採用まで1〜2ヶ月の作業期間を要することがあり、供給の効率に深刻な影響を及ぼします。

  2. よりニッチな分野では、リーガルモデルに焦点を当てたスタートアップが多くのリーガルデータアノテーションを必要とする場合を考えてみましょう。 法律の分野は依然として非常に高い専門的要件を持っており、スタートアップは次の基準を満たすデータアノテーションプロバイダーを見つける必要があります:1。 法律を理解し、中国の法律、香港の法律、アメリカの法律などをカバーする必要があるかもしれない少なくとも12人。 中国語と英語を理解できる必要があります。 コストが高すぎてもいけません。 弁護士にラベリングを依頼すると、弁護士の給料が高いため、仕事を嫌がるかもしれません。 したがって、この種のセグメンテーションに対する現在の解決策は、データアノテーションに取り組むために学校のインターンを社内で募集することだけです。 直販や下請けの管理形態では、このような細分化の軌跡を完成させることはまだかなり困難です。

したがって、市場の主要なプレーヤーは3つのカテゴリに分類できます:1。 大企業が社内で行っている(例:Baiduのクラウドソーシング);2. 直接/下請けモデル(以下で分析)を持つスタートアップ。 中小規模のデータアノテーションスタジオ。

図:中国のAI市場におけるデータ市場規模

F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png

本題に入る前に、この分野の現在の主要なスタートアップを見てみましょう。

  1. Scale AI:米国におけるScale AIの主な事業は、データアノテーション、管理、評価(アノテーションされたデータの品質を制御し、アノテーションの効率を向上させる)、自動化(効率を向上させるための補助アノテーション)、およびデータ合成(モデルがますます豊富になり、実際のデータが十分でない場合は、データフィードモデルを自動的に合成する必要があり、合成データトラックについては後で説明します)。 Scale AIは当初、自動運転のアノテーションに注力していましたが、2年前には同社の受注の80〜90%が自動運転(2D、3D、LiDARなど)によるものでしたが、近年はこの割合が減少しています。 同社の受注元はサプライヤーの業界動向に対応しており、近年は政府、eコマース、ロボット、大型モデルなどの分野が急速に発展しており、チームの業界動向を把握する鋭い能力と相まって、各セグメントで高い市場シェアを維持できています。 さらに、Scale AIは、顧客のモデルの微調整、ホスティング、デプロイを支援するなど、独自のサービスとしてのモデルサービスを開始しました。

充電モデルには2つのタイプがあります。

  • 消費ベース: たとえば、Scale Image は画像あたり 2 セント、ラベルあたり 6 セントから、Scale Video はビデオ フレームあたり 13 セント、ラベルあたり 3 セントから、Scale Text はジョブあたり 5 セント、ラベルあたり 3 セントから、Scale Document AI はジョブあたり 2 セント、ラベルあたり 7 セントから始まります。

  • 契約書などのデータ量に基づくプロジェクトベースは、実際にはプロジェクトベースの収入であり、単価は数十万ドルから数千万ドルの範囲です。

2022年に2億9,000万ドルの収益が予測され、現在の評価額が70億ドルのScale AIは、世界最大のデータアノテーション企業です。 同社の投資家も非常に豪華です。

2.ハイチのAAC:中国のハイチのAACは、データアノテーションの分野でも重要な役割を果たしています。 同社は、データ注釈、データクリーニング、データ分析などに豊富な経験を持っています。 しかし、その詳細なビジネスモデル、課金方法、資金調達に関する情報はまだ明らかになっていません。

  1. Appen: オーストラリアの Appen は、世界有数のデータアノテーション企業です。 Scale AIと同様に、Appenはデータ注釈、音声データ収集、翻訳などのサービスを提供しています。 同社は世界中に多数のアノテーターを擁し、顧客に高品質のデータアノテーションサービスを提供しています。 アッペンの詳細なビジネスモデルと資金調達も、さらに深く研究する価値があります。

xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png

a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png

これら3社は、グローバルなデータアノテーションの分野で重要な位置を占めており、それぞれ米国、中国、オーストラリアでこの分野をリードしています。 スタートアップのビジネスモデルや市場競争に飛び込む前に、これらの大手企業を理解することで、業界全体の状況をより包括的に理解することができます。

ハイチのAACはA株上場企業ですが、正確にはデータラベリング会社ではありません。 データアノテーションを行う独自のチームを構築するのとは対照的に、ハイチは本質的に技術サービスプロバイダーであり、さまざまなスタジオに注文をアウトソーシングしています。 中国におけるハイチAACの拡大の核心は、1.音声注釈に深い蓄積があり、190以上の言語(収益の70〜80%を占める)をカバーしています。 2.スケール効果 3.優れた国際化能力。 中国では、データラベリング業界は非常に乱暴で初期段階にあり、非常に散在していて無秩序であり、業界標準や規範も欠如しています。

6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png

wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png

(Appen)とハイチのビジネスモデルの比較を見ると、直接販売/アウトソーシングのビジネスモデルと粗利益の経験を見ることができます。
図:ダイレクト/アウトソーシングのビジネスモデル...

TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png

RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png

これほど多くの伏線があるため、記憶力の良い読者は、私たちのタイトルがブロックチェーンでデータアノテーションをどのように再構築するかを考えていませんでした。 全文はまだブロックチェーンについて語っていませんが、それをどのように再構築するか?

AIの未来は、データ、コンピューティングパワー、モデルなど、オープンで主権のあるものであるべきであり、高い品質と効率性の確保に基づいて、社会への普遍的でオープンなアクセスを提供する必要があります。 AIの進歩に貢献するすべての参加者は、自分の貢献と成果に対する所有権と、利益の合理的な分配と報酬を持つ必要があります。

最近の投資会社であるQuest Labsは、新時代のAIと人間の関係を再定義し、AIとブロックチェーン技術を使用して、業界の既存の問題点を破壊し、解決することを目指しています。 AI産業チェーンの上流工程で必要なシャベルとして、データサービスはQuestが解決したい最初の問題です。 AIによるデータ生産の効率化を促進し、ブロックチェーンを通じて新しい時代の公共データセットの経済モデルと価値の獲得を再定義し、相互に補完し合って価値の高いデータを継続的に生成し、AIアノテーターの能力と認知を向上させます。

  1. .AIと人間の協調的知性:
  • 人間のチームが副操縦士モデルと円滑に対話できるようにし、インセンティブを与えるためのインテリジェントなヒューマンインザループ、AI中心のインフラ、提供高精度数据,并迭代提高质量,以在ライフサイクル中生成高价值数据
  • Humans Ops Toolを搭載した分散型マーケットプレイスは、分散型の労働力管理の効率を最大化し、分散したチームのグローバルネットワーク全体でコラボレーションとコミュニケーションを最適化します。
  1. データの開示、プライバシー、所有権

*このプラットフォームは、有料のキャッシュフローとトークンを通じてユーザーのトラフィックと接着に深くインセンティブを与え、データフライホイール効果を常に刺激し、需要と供給の両方の行動と履歴データをキャプチャして、互いに継続的に学習します。 アルゴリズムは、将来の商業的価値(ハードドメインマイニング)を確保するためのデータ需要フレームワークを推奨および定式化するために使用され、多数の垂直セグメンテーションシナリオをカバーします。 すべてのデータマーク参加者は、事前に呼び出して商品化するためのデータセットの提供を開始し、キャッシュフローとトークン報酬を受け取ることができ、最終的には新しい時代の価値あるオープンAIデータネットワークになります。 *データの暗号化とプライバシー保護:ZKとFHEは、処理と保存のためにユーザーデータをより適切に暗号化するために使用されます。 *ブロックチェーンテクノロジーは、収集や注釈などのさまざまな出力とそれに対応する値を含む、参加者によるデータの所有権を追跡および検証するために使用されます。

  1. 新しい経済モデル

・AIを自動マッチングするグローバルなAIデータサービスプラットフォーム「美団」を通じて、中央集権的な計画経済から市場経済へと転換する。 *ブロックチェーン技術を通じて評判+デジタル通貨最適化決済システムの信頼性を確保し、供給側の人々の流れを無限に拡大して正確なマッチングを行い、適切な人々が効率的かつ高品質であるために正しいことをできるようにします。 データラベリングサービスと貧困層の重なりにより、雇用+金融包摂が偽装されて達成されます。

4.トークンは、継続的な学習と高品質のサービスとアウトプットを奨励すると同時に、プラットフォームモデルを最適化してパイプライン全体の効率と生産性を向上させるために、高品質で効果的なフィードバックを提供するようにユーザーにインセンティブを与えます(人間とAIの相互継続学習)。

*トークンによるPOPWによる合理的な利益の分配と価値の獲得により、CACをより適切に削減し、保持率を高めます

web2の世界から見ると、これはDidiやMeituan Takeawayに少し似た、データアノテーションの配信プラットフォームです。 しかし、web3の観点から見ると、これは実際のキャッシュフローを持つAxie Infinity+YGGです。 2021年の強気相場では、AxieとYGGの組み合わせにより、かなりの数の第三世界のユーザーがWeb3に参入し、このタイプのゲームギルドは、流行の間、非常に多くの第三世界の家族、特にフィリピンを養ってきました。 市場はまた、AxieとYGGに非常に良いリターンを与えており、彼らは非常に興味深いアルファです。 Web2とWeb3の架け橋となる投資家として、ブロックチェーン技術を用いてリアルビジネスに貢献するプロジェクトやチームを積極的に支援していき、今後のチームのパフォーマンスに期待しています。 これは、Web2ビジネスに翼を与えることができるWeb3テクノロジーがほとんどないことがわかる方向でもあります。

ETH-3.81%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)