先月、有名な教育機関であるXueersiは、世界の数学愛好家と主要な科学研究機関を対象とし、問題解決と講義において二本足で歩く大規模な数学モデルMathGPTを開発していることを明らかにした。当時、あなたと私が歌ったグローバルなビッグランゲージモデルがステージに上がったとき、ついに科学バージョンのビッグモデルが登場するのだと多くの人が感じました。しかし、1か月以上が経過し、現実の発展は別の方向に進みました。今週の火曜日13日、AI執筆ツール「Pen Shen Commission」は、MathGPTの新製品「Composition AI Assistant」を開発するために、「クローラー」技術を通じてサーバーデータに250万回以上不正にアクセスし、キャッシュしたとしてXueersiを告発した。 「 」と1元を請求した。## 1 年、6 年間の成果と週末Penshen 作文は 2017 年 12 月に設立され、K12、つまり国内の小学校から高校までを対象とした作文教育プラットフォームであり、Beijing Yiyilianghua Technology Co., Ltd. の傘下にあります。設立当時はAIと組み合わせるという声や構想はあったものの、市場の期待や実績は今ほど熱くなく、注目も限定的でした。しかし、それでもペンシェン・コンポジションは「AI技術を活用して作家の文章力向上を支援する」という特徴を生かし、7月にBuhuo Venture Capitalの数百万ドル規模のエンジェルラウンドでの資金調達を完了した。公式データによると、開始以来 6 年間で、Penshen Composition は毎月 30 万件以上のエッセイの投稿と 40 万件以上の「いいね!」やコメントを受け取り、毎月数百万件のエッセイ素材と添削エッセイを蓄積してきました。記事数は30,000件。昨年末に ChatGPT が発表された後、Penshen Comboposition の投資家の 1 人である Shiji Tianhong 氏は、**「Pensus」と ChatGPT テクノロジーは同じ起源を持ち、どちらもトランスフォーマーに基づく最先端のアルゴリズムを使用していると述べました。基礎となるテクノロジー** として。 Bishen Composition の創設者である Song Jiawe 氏も次のように紹介しました。「現在、1 ストロークと 2 ストロークはチームの技術研究開発要員の 60% 以上を占めています。会社設立前に、彼らは NLP 会社を設立しました。いくつかのバックボーンは、長年にわたりNLP分野に深く関わり、蓄積を続けています。」** したがって、全体として、PenShen Comboposition のアルゴリズム モデルは自社で開発およびトレーニングされており、プラットフォームで使用されるビッグデータは主に自社の蓄積から得られます。 **執筆技術の蓄積と成果により、Penshen Composition と Xueersi は 3 年前に正式に提携を開始し、Xueersi の学習ツール アプリ「Tipai Pai」と契約を締結し、主に作曲資料照会サービスの提供を担当しています。しかし、ビシェン・コンポジションはパートナーとして、最近「4月13日から17日にかけて、私たちのチームの設立以来6年間の成果は、長年協力してきた「Xueersi」によって容赦なく裏打ちされた、と述べた。たった一度だけ! Xueersi 氏は 5 月に MathGPT を発表しましたが、そのタイミングはあまりにも偶然です。## 2. ペン神の訴えと薛爾思の反応** Penshen Composition の公式 Weibo が発表した声明から判断すると、同社は完全なデータ セキュリティ メカニズムを備えておらず、その「パートナー」Xueersi に対する防御手段がありません。これにより Santi Yunlian (Xueersi) Si の子会社が利用されたことがわかります。お互いの信頼関係。 **これに関して、Bishen Composition は、この行為は明らかに両当事者間の契約条項を無視しており、「データ保護法」第 32 条にも違反すると述べています。 「他の違法な方法でデータを盗んだり入手したりしないでください」は、Bishenzuowen APP のデータ権利を重大に侵害しています。その直後、ペンシェン・コンポジションは検証のためにXueersiを見つけましたが、相手方は先延ばしにせず、アルゴリズムチームがデータをクロールして自分たちの目的で使用していたことを直接認めました。そのため、碧申作文は弁護士の書簡を送ったが、今度は雪氏から実質的な返答は得られなかった。「Xueersiよりもはるかに小さい企業として、私たちは法的手段を通じて自らの権利を守る以外に選択肢はありません。」しかし、Bishen Compositionは声明の中で、現在の法律と規制は「AIビッグモデルデータ盗難」判決の先例に当てはまらないとも指摘しました, したがって、「最初の一歩を勇敢に踏み出す」ことしかできません。 Penshen Combo の実際の訴えに関しては、実際には難しいことではありません。** は Xueersi に 1 元の賠償金を支払い、公的に謝罪し、クロールされたデータを削除することだけを望んでいます。 **これについてペンシェン・コンポジションは次のように説明している。「データは価値があり、骨の折れる努力は値段がつけられない。1元を要求するのは、公平性や正義はお金では測れないからだ。われわれは訴訟を通じて相手方にこの行為を伝え、社会に訴えたい」 AI 業界の発展には、他者の成果をむさぼり盗んだりするのではなく、全員が協力し、共に創造することが求められます。」 ペン神の構成が述べたように、この訴訟はわずか1元を請求しただけであったため、この声明は大きな反響や注目を引き起こさず、Xueersiを非難する記事もわずかしかありませんでした。しかし、結局のところ、これはネガティブなニュースであり、Xueersi の公式 Weibo も最近、次のような反応を投稿しました。「第一に、MathGPT は数学の分野に焦点を当てた自己開発の大規模なモデルであり、合成関連のデータはありません。第二に、『合成』 「AI アシスタント」は現在開発中です。状況はまだ公開されておらず、このサービスではペンシェン コンポジションのデータは使用されていません。」今回の事件のキーポイントである250万回以上のデータクローリングについて、Xueersi氏は、契約書に「月額保証料に含まれる通話回数は数百万件のオーダー」と明記されており、インターフェースが「 「両当事者に帰属します。契約に定められた通常の協力範囲」。回答の最後に、Xueersi は、「常に知的財産権を尊重し、知的財産の保護を非常に重視している」と強調し、すべての行動は契約に厳密に従って行われているが、「ペンシェン・コンポジションの公式声明はすでにXueersi のブランド評判に損害を与えた。当社はその評判侵害の責任を追及する権利を留保する。」## 3. データ著作権の問題両当事者の現在の声明に関する限り、結論を出すのは時期尚早ですが、これはまた、過去 6 か月間の注目の大型モデル市場の非常に重要だが見落とされがちな側面、つまり著作権の所有権を明らかにしています。 **AI トレーニング データ **。 「米国版Tieba」として知られるRedditが最近インターネット上で騒がれているのもこのためだ。Reddit には長年にわたって蓄積された豊富なチャット コンテンツがあるため、Google、Microsoft、OpenAI などの企業が大規模な言語モデルをトレーニングするために使用する素材となっています。ChatGPT やその他の雄弁な言語で、後に世界中で人気を博しました。 。しかし、これらの GPT のような製品が人気を集めている今、Reddit の創設者兼 CEO はかつて次のように述べました。**「Reddit のコーパス データは非常に貴重ですが、私たちはこれらのコンテンツを一部の巨大企業に無料で提供したくありません。」* *これに続いて、別の有名なIT質問と回答のWebサイトであるStack Overflowも、自身の立場を表明した後、今年半ばから大手開発者からデータアクセス料金を徴収する計画であることを発表し、そのCEOも次のように述べた。 「最近の大きな言語モデルの開発はコミュニティの促進からも恩恵を受けており、コミュニティはその貢献に対して報酬も受け取る必要があります。」**間違いなく、AGI や大規模モデルが少数派から大衆に、舞台裏から表舞台に至るまでますますインテリジェントになる過程では、膨大な学習データが不可欠です。しかし、現在の各社の業績を見る限り、現在の初代兄弟であるOpenAIですら、学習データの著作権問題に対して良い解決策を持っていない。その理由は簡単に理解できますが、GPT の初期バージョンは外部の注目をほとんど集めておらず、商用化できるかどうかについては懐疑的であり、当然のことながらデータ ソースや著作権の問題など誰も気にしていませんでした。 ChatGPTが開始されると、莫大な利用価値、商業的価値、社会的高揚が訪れ、従来の法制度、経済モデル、開発思想などがたちまち厄介なものになってしまいます。 それが真実であるかどうか、そして最終的な結果がどうなるかは関係なく、今回、Bishen CommissionとXueersiは中国初の大規模モデルデータ著作権ドラマを共同で上演し、国内の大型モデル業界と業界にインスピレーションをもたらしました。企業。たった一元の争いではあるが、大きな意味を持つ。おそらく将来何万ものドラマが公開されるとき、ペンシェン・コンポジションとシュエルシの今日の声明を振り返ると、このドルが本当に先見の明があることがわかるでしょう。
6 年間の結果は 1 つの週末に 250 万回以上クロールされました。新時代のデータ著作権の保護方法
先月、有名な教育機関であるXueersiは、世界の数学愛好家と主要な科学研究機関を対象とし、問題解決と講義において二本足で歩く大規模な数学モデルMathGPTを開発していることを明らかにした。当時、あなたと私が歌ったグローバルなビッグランゲージモデルがステージに上がったとき、ついに科学バージョンのビッグモデルが登場するのだと多くの人が感じました。しかし、1か月以上が経過し、現実の発展は別の方向に進みました。
今週の火曜日13日、AI執筆ツール「Pen Shen Commission」は、MathGPTの新製品「Composition AI Assistant」を開発するために、「クローラー」技術を通じてサーバーデータに250万回以上不正にアクセスし、キャッシュしたとしてXueersiを告発した。 「 」と1元を請求した。
1 年、6 年間の成果と週末
Penshen 作文は 2017 年 12 月に設立され、K12、つまり国内の小学校から高校までを対象とした作文教育プラットフォームであり、Beijing Yiyilianghua Technology Co., Ltd. の傘下にあります。設立当時はAIと組み合わせるという声や構想はあったものの、市場の期待や実績は今ほど熱くなく、注目も限定的でした。しかし、それでもペンシェン・コンポジションは「AI技術を活用して作家の文章力向上を支援する」という特徴を生かし、7月にBuhuo Venture Capitalの数百万ドル規模のエンジェルラウンドでの資金調達を完了した。
公式データによると、開始以来 6 年間で、Penshen Composition は毎月 30 万件以上のエッセイの投稿と 40 万件以上の「いいね!」やコメントを受け取り、毎月数百万件のエッセイ素材と添削エッセイを蓄積してきました。記事数は30,000件。昨年末に ChatGPT が発表された後、Penshen Comboposition の投資家の 1 人である Shiji Tianhong 氏は、「Pensus」と ChatGPT テクノロジーは同じ起源を持ち、どちらもトランスフォーマーに基づく最先端のアルゴリズムを使用していると述べました。基礎となるテクノロジー として。 Bishen Composition の創設者である Song Jiawe 氏も次のように紹介しました。「現在、1 ストロークと 2 ストロークはチームの技術研究開発要員の 60% 以上を占めています。会社設立前に、彼らは NLP 会社を設立しました。いくつかのバックボーンは、長年にわたりNLP分野に深く関わり、蓄積を続けています。」
** したがって、全体として、PenShen Comboposition のアルゴリズム モデルは自社で開発およびトレーニングされており、プラットフォームで使用されるビッグデータは主に自社の蓄積から得られます。 **執筆技術の蓄積と成果により、Penshen Composition と Xueersi は 3 年前に正式に提携を開始し、Xueersi の学習ツール アプリ「Tipai Pai」と契約を締結し、主に作曲資料照会サービスの提供を担当しています。
しかし、ビシェン・コンポジションはパートナーとして、最近「4月13日から17日にかけて、私たちのチームの設立以来6年間の成果は、長年協力してきた「Xueersi」によって容赦なく裏打ちされた、と述べた。たった一度だけ! Xueersi 氏は 5 月に MathGPT を発表しましたが、そのタイミングはあまりにも偶然です。
2. ペン神の訴えと薛爾思の反応
** Penshen Composition の公式 Weibo が発表した声明から判断すると、同社は完全なデータ セキュリティ メカニズムを備えておらず、その「パートナー」Xueersi に対する防御手段がありません。これにより Santi Yunlian (Xueersi) Si の子会社が利用されたことがわかります。お互いの信頼関係。 **これに関して、Bishen Composition は、この行為は明らかに両当事者間の契約条項を無視しており、「データ保護法」第 32 条にも違反すると述べています。 「他の違法な方法でデータを盗んだり入手したりしないでください」は、Bishenzuowen APP のデータ権利を重大に侵害しています。その直後、ペンシェン・コンポジションは検証のためにXueersiを見つけましたが、相手方は先延ばしにせず、アルゴリズムチームがデータをクロールして自分たちの目的で使用していたことを直接認めました。そのため、碧申作文は弁護士の書簡を送ったが、今度は雪氏から実質的な返答は得られなかった。
「Xueersiよりもはるかに小さい企業として、私たちは法的手段を通じて自らの権利を守る以外に選択肢はありません。」しかし、Bishen Compositionは声明の中で、現在の法律と規制は「AIビッグモデルデータ盗難」判決の先例に当てはまらないとも指摘しました, したがって、「最初の一歩を勇敢に踏み出す」ことしかできません。 Penshen Combo の実際の訴えに関しては、実際には難しいことではありません。** は Xueersi に 1 元の賠償金を支払い、公的に謝罪し、クロールされたデータを削除することだけを望んでいます。 **
これについてペンシェン・コンポジションは次のように説明している。「データは価値があり、骨の折れる努力は値段がつけられない。1元を要求するのは、公平性や正義はお金では測れないからだ。われわれは訴訟を通じて相手方にこの行為を伝え、社会に訴えたい」 AI 業界の発展には、他者の成果をむさぼり盗んだりするのではなく、全員が協力し、共に創造することが求められます。」
今回の事件のキーポイントである250万回以上のデータクローリングについて、Xueersi氏は、契約書に「月額保証料に含まれる通話回数は数百万件のオーダー」と明記されており、インターフェースが「 「両当事者に帰属します。契約に定められた通常の協力範囲」。回答の最後に、Xueersi は、「常に知的財産権を尊重し、知的財産の保護を非常に重視している」と強調し、すべての行動は契約に厳密に従って行われているが、「ペンシェン・コンポジションの公式声明はすでにXueersi のブランド評判に損害を与えた。当社はその評判侵害の責任を追及する権利を留保する。」
3. データ著作権の問題
両当事者の現在の声明に関する限り、結論を出すのは時期尚早ですが、これはまた、過去 6 か月間の注目の大型モデル市場の非常に重要だが見落とされがちな側面、つまり著作権の所有権を明らかにしています。 **AI トレーニング データ **。 「米国版Tieba」として知られるRedditが最近インターネット上で騒がれているのもこのためだ。
Reddit には長年にわたって蓄積された豊富なチャット コンテンツがあるため、Google、Microsoft、OpenAI などの企業が大規模な言語モデルをトレーニングするために使用する素材となっています。ChatGPT やその他の雄弁な言語で、後に世界中で人気を博しました。 。しかし、これらの GPT のような製品が人気を集めている今、Reddit の創設者兼 CEO はかつて次のように述べました。*「Reddit のコーパス データは非常に貴重ですが、私たちはこれらのコンテンツを一部の巨大企業に無料で提供したくありません。」* これに続いて、別の有名なIT質問と回答のWebサイトであるStack Overflowも、自身の立場を表明した後、今年半ばから大手開発者からデータアクセス料金を徴収する計画であることを発表し、そのCEOも次のように述べた。 「最近の大きな言語モデルの開発はコミュニティの促進からも恩恵を受けており、コミュニティはその貢献に対して報酬も受け取る必要があります。」
間違いなく、AGI や大規模モデルが少数派から大衆に、舞台裏から表舞台に至るまでますますインテリジェントになる過程では、膨大な学習データが不可欠です。しかし、現在の各社の業績を見る限り、現在の初代兄弟であるOpenAIですら、学習データの著作権問題に対して良い解決策を持っていない。その理由は簡単に理解できますが、GPT の初期バージョンは外部の注目をほとんど集めておらず、商用化できるかどうかについては懐疑的であり、当然のことながらデータ ソースや著作権の問題など誰も気にしていませんでした。 ChatGPTが開始されると、莫大な利用価値、商業的価値、社会的高揚が訪れ、従来の法制度、経済モデル、開発思想などがたちまち厄介なものになってしまいます。