データの「盗み」、AI ビッグモデルの暗い側面

元のソース:

画像ソース: Unbounded AI によって生成

「ワン・ストローク・ツー・ストロークス」と呼ばれる新興企業は、教育訓練の元リーダー「シュエルシ」氏を公に非難し、「データベースをスクレイピング」することで苦労して保存したデータを「盗んだ」と述べた。

事の発端は、今年4月中旬、ストライクツーストライク社の製品「ペンシェンコンポジション」において、サーバーインターフェースへの定期的な異常アクセスが大量に発生していることが判明し、アクセス数が急増したことです。サーバーの負荷に影響します。

アクセス数は一日平均を大きく上回っています。 Bishen Composition が Deep AI に明らかにしたところによると、通常の 1 日のアクセス数は数百から数千件ですが、この数日間で 1 日あたり 500,000 件以上に増加しました。 1 週間以内に、データは 258 万回クロールされました。

Penshen Combo によって公開されたデータベース呼び出し

Pen God Combo はサーバー ログを調べて、単一の IP が「クローラー」テクノロジーを通じてデータベースを高密度でクロールしていることを発見しました。この IP の各訪問の検索ワードは作品に関連しており、システムはページごとに 30 の作品を返します。各訪問では検索ワードを使用して最初のページからページごとに戻り、基本的に同じトピックをライブラリに収集します. すべての構図がキャプチャされました。

業界関係者によると、通常の状況では、一般のユーザーはこのようなことはしないでしょう。 **この種の検索形式のデータベースへのアクセスは、「ライブラリのスクレイピング」とも呼ばれます。 **

ペンシェン・コンポジションは、「パク」を裏で操っているのはパートナーのシュエルシーだと考えている。

「駐車場図書館」事件から間もなく、Penshen Composition は、Xueersi が大規模な数学モデル MathGPT を開発していることを発見し、近い将来に「AI アシスタント」を発売する予定であると述べました。その 1 つは合成です。

Penshen 作曲が「拾われた」という 2 つの事件と、Hexueersi が「作曲 AI アシスタント」を開発していることとの間に関連性があるかどうかについては、明確な結論は出ていません。

しかし、Bishen Composition は、その権利が侵害されていると考えています。相手方に弁護士の書簡を送り、この件を公表して説明を求めた。 Xueersiは公的回答を行い、ペンシェンの素材コンテンツの使用は契約要件を満たしており、自社開発したMathGPTモデルと「作曲AIアシスタント」はペンシェンの作曲データを一切使用していないと述べた。

この事件で議論の価値があるのは構成素材だけではない。大規模モデルにとってデータは何を意味しますか?

**パートナーが門のところで野蛮人になった? **

双方が自分の意見を主張している

まずはペン神の構成を簡単に紹介しましょう。

同社は2017年に設立。製品「Pen God」はAI+教育のプロダクトともいえる人工知能支援筆記ソフト。当初、「ペンの神」はコンテンツ制作プラットフォームや関連ツールのメーカー向けでしたが、その後、AIを活用して学生に作文を教えるという垂直分野に深く進出し、「ペンの神作文」ができました。

シンプルに理解できます。これは教育業界にあり、学生グループを対象としており、人工知能テクノロジーを使用しており、エッセイを書く場面を解決します。

AI ライティングは、現在人気のある ChatGPT と多くの共通点があります。これらにはすべて、自然言語処理、意味分析と予測、機械学習などのテクノロジーが含まれています。 Penshen Composition の創設者である Song Jiawe 氏は、ソニーのシニア システム アーキテクトおよび Singulato の CTO を務めてきました。

Song Jiawei 氏は 5 年前から、bert や GPT-2 などの事前トレーニング済み言語モデル テクノロジをアプリケーションに適用する方法を検討していたと述べました。当時、GPT はまだ世間からは出ておらず、今日ほど知名度もありませんでした。

AI作曲を始めた後、Penshen作曲は正式に教育の道に入り、教育と訓練のリーダーであるXueersiと同じ川に足を踏み入れました。

Penshen の紹介によると、2020 年 12 月に Penshen Composition と Xueersi は協力関係に達しました。 ** Penshen Commission は、Xueersi 関連サービスで使用される「Benshen 作文モデルエッセイ教材サービス インターフェース」を Xueersi に提供し、料金は通話回数に応じて決済されます。このため、Penshen Combo は Xueersi のサービス インターフェイスをオープンしました。 **

言い換えれば、Xueersi は Penshen 構成データベース内の構成素材を使用し、料金を支払うことができます。

合成材料はこの取引の中核資産であり、ペンシェン・コンポジションのビジネスモデルの基礎です。実際、ペン神の作曲は最も早い段階で素材の点から始まりました。当時は「ワンクリック資料検索」機能があり、キーワードで検索するとシステムが自動的に資料を照合し、古詩から公文書、現代のウェブ記事まで幅広く資料を検索することができました。執筆プロセス中に、システムはリアルタイムで素材をプッシュすることもできます。

これらの資料はインターネットからのものではなく、Penshen 自身のデータベースからのものです。 AI テクノロジーのインテリジェントな識別、翻訳、マッチングを通じて、Penshen は適切な素材をユーザーの検索行動にフィードバックできます。

これらの構成材料の量が十分に多く、品質が十分に高く、マッチングが十分に正確であれば、一定の商品価値があり、外部に販売することもできます。これがXueersiとの協力の理由です。

問題は、特に一部のインターフェースが開かれている場合、これらのマテリアルが「盗まれる」危険性があることです。

ペンシェン構成におけるディープAIの導入によると、彼らはXueersiとの協力範囲を制限し、「私たちは彼らが私たちのデータを呼び出して独自のAPPに表示できるようにインターフェースをオープンしますが、契約にはストレージデータは含まれていません。」 「AI アルゴリズムに対する権限。データはユーザーのみが利用できるようにする必要があり、ユーザーのマシンに保存すべきではありません。」

これは、**ユーザーが Xueersi の製品側で検索を開始すると、呼び出される合成テンプレートは Penshen Comboposition から取得され、Xueersi 自体ではそれを保存できないことに相当します。 **

4月中旬の異常な電話を受けて、ペン神コンポジションは通常の業務協力の範囲を超えていると考えた。 「彼らの行動が私たちの防御機構を引き起こし、それが私たちの発見につながりました。」

Bishen Zuowen 氏は、バックグラウンドでアクセス ログをチェックしたところ、不正アクセスが「クローラ」テクノロジーを介して単一の IP によって開始されたことが判明したと述べました。 「この IP アドレスはすでに持っています。」

ペンシェンコンポジションが公開するIPアドレス(一部)

国内の人工知能スタートアップ企業のCEOであるLiu Ran氏がDeep AIを分析したのですが、このキーワードを網羅的に列挙する手法は、ライブラリ内のデータを取得するためのものであり、非常に明白な動作です。

ペンシェン・コンポジションはDeep AIに対して、事件後、Xueersiの運営スタッフに確認したところ、相手方はXueersiのアルゴリズムチームがデータをクロールして自分たちの目的で使用していたことを直接認めたと明らかにした。ただし、この声明に関しては、Deep AI はまだ Xueersi によって確認されていません。

元パートナーが玄関先で突然野蛮人になったため、ビシェン・コンポジションは非常に怒り、何度も弁護士の手紙を送りました。

Xueersiは6月13日の公開回答で、Penshen作曲インターフェースへの呼び出しは両当事者間の契約の範囲を超えておらず、Penshen素材コンテンツの使用は契約要件に従っており、何の目的にも使用されていないと述べた。契約以外のいかなる目的であっても。 Xueersi は、自社開発した MathGPT 大型モデルと「合成 AI アシスタント」が Penshen 合成からのデータを一切使用していないことを特に強調しました。

双方がそれぞれの意見を主張しており、まだ結論は出ていない。ペン神の記事によると、今回の事件は「AIの大規模モデルデータが盗まれた初の事件」となる可能性があるという。

検討する価値のある問題は、大規模モデルにとってデータが何を意味するかということです。

データがどこから来たのかは大きな問題です

コンピューティング能力、アルゴリズム、データは、機械学習における人工知能の 3 つの中心要素です。

コンピューティング能力を向上させるために、多くのテクノロジー企業が多額の資金を投じて Nvidia の GPU を奪い取っています。アルゴリズムの面では、国内外の一部の大手企業がアルゴリズムをオープンソース化しており、これによりモデル開発の敷居が大幅に下がります。

データ側には、常に障壁が存在します。高品質のデータをどこで見つけるかが重要な問題です。

大規模な生成 AI モデルでは、モデルの一般化と生成機能を向上させるために、トレーニングに大量の多様なデータを使用する必要があります。モデルが異なれば、異なるデータ ソースが使用される場合があります。 ChatGPT などの一般的な大規模モデルは、さまざまなニュース Web サイト、書籍、科学論文、Web ページなど、多くの公開データを使用します。一部の垂直分野の大規模モデルの場合、対象となるコーパスとデータセットを見つける必要があります。

国内大手テクノロジー企業の大規模モデルの担当者はDeep AIに対し、ChatGPTは実際には多くの非公開データを使用しており、インターネット上の公開データの多くは非常に低品質であり、高品質データのしきい値。データの取得とクリーニングは大きな課題に直面しています。 **

TAL CTO Tian Mi 氏は 5 月 4 日、「多くの分野にはデータの壁と業界のノウハウがあり、大規模なモデルは依然としてドメインの知識と深く統合される必要があり、さらにドメインの専門家を訓練するのに十分なドメイン データが必要です。モデル。 」

Tian Mi 氏が述べたように、大規模ドメイン モデルはドメイン知識と深く統合される必要があります。 AI合成の分野において、合成素材は機械を訓練するための重要なデータです。

Penshen Company は 2019 年にはすでに、目的を持ってデータを収集し、有名な引用、詩、公式文書、インターネット言語などをカバーする独自の構成コーパスをトレーニングし始めました。彼らは、機械を訓練して手動ラベルをシミュレートし、各コーパスにラベルを付ける方法を使用しています。

垂直コーパスでは、データがタグ付けされている場合にのみ、ベクトル マッチング、意味分析、およびユーザーの現在のコンテンツ作成の予測に基づいて、正確なコンテンツ プッシュを実行できます。

Liu Ran 氏は Deep AI に対し、モデルの構築には多くの検証済みデータが必要であり、データが整理されていれば人間の作業を大幅に節約できると語った。 Penshen Combo で編成されたコンポジションは、マークされたデータとして使用できます。

このプロセスは継続的で時間がかかります。美神作曲では、設立以来6年間で累計500万点以上の作曲素材を蓄積し、月間修正量は3万点を超えるという。これらの構成資料は手動でレビューされ、スクリーニングおよび提出され、ラベルが付けられ、グレーディングされ、データが修正され、最終的に蓄積されます。

これらのデータは、APP ページに資料の形で表示されるだけでなく、バックグラウンドでアルゴリズムをトレーニングするために使用することもできます。したがって、他の企業と協力してインターフェイスをオープンする際、Penshen Comboposition は契約に「コーパスとしてのキャッシュ、保存、計算およびトレーニング」を禁止するという特別な条項を追加しました。

Bishen Combo は、Xueersi がデータを「盗んだ」と考えており、Xueersi が大規模数学モデル MathGPT と Xueersi 学習マシン「Composition AI Assistant」のトレーニングと開発にデータを使用していると推測しています。しかし、それを証明するのは難しいようです。

Liu Ran 氏は、通常、構成データには、高度な同時実行を受け入れない、データを暗号化するなど、いくつかの制限を事前に設定し、データの所在と用途を追跡できるようにする必要があると考えています。しかし、彼はまた、構成データはユーザーの主要な行動データほど重要ではないとも考えています。

「AIに良い楽曲とは何かを学習させ、その基準に従って生成させることができます。しかし、実際にはそれほど多くのデータは必要ないと思います。高品質な楽曲が何万件もあれば十分でしょう。」と彼は言いました。 。

「AI 大規模モデル データ盗難の最初の事件」

**立てる? **

ペンシェン作文は強硬な態度を取り、雪爾氏に謝罪を要求すると同時に1元の賠償金を請求するという2回連続の発表を行った。同社はこの事件を「AIの大規模モデルデータ盗難の最初の事件」と呼びたいとさえ考えている。

上海マンキュー法律事務所所長の劉紅林弁護士はDeep AIに対し、Bishen Compositionの自社構築コーパスまたはマテリアルライブラリ自体には知的財産権があると語った。ただし、著作権法上の著作物となるかどうかは、その創作性が該当するかどうかによって決まります。

ペンシェン・コンポジションがXueersiが悪意を持ってデータを取得したことを証明する十分な証拠を持っている場合、知的財産権侵害または不正競争訴訟を起こすことができる。」と彼は述べた。

また、Bishen Composition は Xueersi と協力協定を締結しており、知的財産権の尊重と認可に同意すれば、契約違反を通じて自社の権利と利益を保護することもできます。

Penshen 構成マテリアル ライブラリの構成の多くはユーザーによって提出されたものであることは注目に値します。ペン神コンポジションは、毎月 30 万件のエッセイの投稿を受け取っていると主張しています。したがって、侵害かどうかを判断する前に、これらの素材の知的財産権を明確にする必要があります。

Liu Honlin氏の分析によると、それはエッセイの作成者(寄稿者)とペンシェンの構成が知的財産権についてどのように同意するかに依存します。投稿時にユーザーが Penshen Combo の知的財産権を承認した場合、Penshen Combo は対応する権利と利益を享受します。

Deep AI がペン神作文のユーザーサービス規約を問い合わせたところ、ユーザーがペン神作文に公開したコンテンツ(コメント、コメント、メモを含むがこれらに限定されない)は、ペン神作文に許可を与えるという条項があることが判明しました。無料かつ取消不能な非独占的ライセンス。

言い換えれば、Penshen Composition はマテリアル ライブラリの知的財産権を所有しています。

Liu Ran が理解できなかったのは、なぜ Bishen Combo が Xueersi に協力したのかということだった。 「私だったら、Xueersi とは絶対に協力しません。なぜなら、私たちは強い競争関係にあるからです。」と彼は信じています。 」

業界関係者の分析によると、Xueersi はトラフィック、シーン、人気があり、特にユーザー指向のフロントエンド製品の点で、Xueersi はペン神構成よりも大きな利点を持っています。しかし、バックエンドでのデータ収集や素材ライブラリの構築などの作業は時間と労力がかかり、短期間で成果が出るのは難しい。 Xueersi の場合、既製のマテリアル ライブラリに直接アクセスするのが最も便利です。 Penshen Combo は、マテリアル ライブラリへのアクセスを販売することで商業的な収益化を実現しました。

しかし、Pen God Comboposition のような新興企業にとって、そのような協力は棘のあるバラのようなものです。なぜなら、中国の巨大企業がいつでもあなたの領土に参入してくる可能性があり、さらにはビジネスレベルで直接の競争を形成する可能性があるからです。 **

AIによる構図補正はペンシェンコンポジションの非常に重要な機能です。 TAL(Xueersiの親会社)も3年前に、AIによるインテリジェントな中国語・英作文添削を実現する「中国語・英作文添削ソリューション」を立ち上げた。

現在、AI 構成の変更は、TAL の巨大な AI 製品マトリックスの氷山の一角にすぎません。最新の製品紹介では、中国語作文修正は中国語と英語のディクテーション修正のモジュールです。 TAL にはさらに大きな野望があり、その触手はすでに AI と教育のあらゆる側面に広がっています。

ChatGPT が生成 AI で普及した後、人工知能業界の起業家は興奮と不安の両方を抱きました。彼らは、業界がようやく再び熱くなりつつあることに興奮している一方、ChatGPT が強力すぎること、そして垂直分野の多くの起業家プロジェクトが一夜にしてその障壁を失ったことに不安を感じています。

Pen God Comboposition のような企業にとって、競争の障壁がどこにあるのか、そして巨大企業にどう立ち向かうかは非常に現実的な問題です。人工知能産業の参入の加速と同質的な競争の激化により、新興企業と巨大企業の間の対立は激化するだろう。

データの取得は、新たな競争の氷山の一角にすぎないかもしれません。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)