Nature|AI検出器が再び生き返る? 成功率は98%と高く、OpenAIを上回っています

ソース: New Zhiyuan

OpenAIが解決できなかった問題は、カンザス大学の研究チームによって解決されたのですか? 彼らが開発したアカデミックAIコンテンツ検出器の精度は最大98%です。 この技術が学術界で広く普及すれば、AI論文の急増を効果的に緩和できる可能性があります。

現在、AIテキスト検出器では、AIが生成したテキストと人間のテキストを効果的に区別する方法はほとんどありません。

OpenAIが開発した検知ツールも、検知精度が低すぎたため、発売から半年も経たないうちにひっそりとオフラインになってしまいました。

しかし、最近、Natureはカンザス大学のチームの研究成果を報告し、論文にAIが生成したコンテンツが含まれているかどうかを効果的に区別できる学術AI検出システムを最大98%の精度で開発しました。

記事のアドレス:

研究チームの核となる考え方は、一般的な検出器の作成を追求することではなく、特定の分野の学術論文に真に有用なAIテキスト検出器を構築することです。

住所:

研究者は、特定の種類の書かれたテキスト用に検出ソフトウェアをカスタマイズすることは、ユニバーサルAI検出器を開発するための技術的な道筋になる可能性があると述べています。

「特定のドメインの検査システムを迅速かつ簡単に構築できるのであれば、異なるドメインのシステムを構築することはそれほど難しくありません。」

研究者らは、論文の文体の20の主要な特徴を抽出し、これらの特徴をトレーニング用のXGBoostモデルに入力することで、人間とAIのテキストを区別することを可能にしました。

そして、これらの20の主要な特徴には、文の長さの変化、特定の単語や句読点の使用頻度などが含まれます。

研究者によると、「少数の特徴量のみを使用することで、非常に高い精度を得ることができます」。

最大98%正解

最新の研究では、米国化学会(ACS)が発行する10の化学雑誌論文の序文で検出器をトレーニングしました。

研究チームが「はじめに」セクションを選んだのは、ChatGPTが背景文献にアクセスできれば、論文のこの部分はかなり簡単に書けるからです。

研究者らは、公開された100の引用を人間が書いたテキストとしてツールをトレーニングし、ChatGPT-3.5にACSジャーナルのスタイルで200の引用を書くように依頼しました。

GPT-3.5で書かれた200件の序文のうち、100件にはGPT-3.5の論文タイトルが付けられ、残りの100件には抄録が執筆の基礎として提供されました。

最後に、検出器に人間が書いた引用とAIが生成した引用の両方を同じジャーナルでテストさせる場合。

検出器は、タイトルに基づいて導入セクションでChatGPT-3.5を100%の精度で識別しました。 ChatGPTが抄録に基づいて生成した引用の場合、正解率は98%とわずかに低くなっています。

このツールは、GPT-4で書かれたテキストにも同様に効果的です。

対照的に、汎用AI検出器ZeroGPTは、使用するChatGPTのバージョンと、引用が論文のタイトルに基づいて生成されたか、要約に基づいて生成されたかに応じて、AIが書いた引用のみを約35〜65%の精度で認識します。

OpenAI製のテキスト分類ツール(OpenAIは公開時に削除していた)も性能が悪く、AIが書いた引用の認識精度は10〜55%にとどまっていました。

この新しい ChatGPT 検出器は、トレーニングされていないジャーナルを扱う場合でも優れたパフォーマンスを発揮します。

また、AI 検出器のプロンプトを混乱させるために特別に生成された AI テキストを認識することもできます。

ただし、検出システムは科学雑誌の論文に対しては非常に優れた性能を発揮しますが、大学新聞のニュース記事の検出に使用すると、認識は理想的とは言えません。

HTWベルリン応用科学大学のコンピューター科学者で、学術的な剽窃を研究しているDebora Weber-Wulff氏は、この研究を高く評価し、研究者が行っていることは「非常に魅力的」であると述べました。

エッセイの詳細

研究者が採用した方法論は、20の主要な機能とXGBoostアルゴリズムに依存しています。

抽出された 20 の特徴は次のとおりです。

(1)段落あたりの文数、(2)段落あたりの単語数、(3)括弧の有無、(4)ダッシュの有無、(5)セミコロンまたはコロンの存在、(6)疑問符の存在、(7)アポストロフィの有無、(8)文長の標準偏差、(9)(平均)段落内の連続する文の長さの差、(10)11語未満の文の有無、(11)34語以上の文の存在、(12)数字の存在、(13) 段落の本文には(ピリオドと比較して)2倍の大文字があり、(14)ただし、(15)ただし、(16)ただし、(17)なぜ、(18)これ、(19)他の誰かまたは研究者、(20)などの単語が存在します。

XGBoostで検出器をトレーニングする詳細なプロセスは、元の論文の「実験手順」セクションにあります。

著者は以前にも同様の仕事をしていましたが、元の作品の範囲は非常に限られていました。

この有望な手法を化学ジャーナルに適用するためには、その分野の複数のジャーナルからのさまざまな原稿に基づくレビューが必要です。

さらに、AIのテキストを検出する能力は、言語モデルに提供されるプロンプトの影響を受けるため、AIの書き込みを検出するために設計された方法は、AIの使用を混乱させる可能性のあるプロンプトに対してテストする必要があります。

最後に、ChatGPT の新しいバージョンである GPT-4 がリリースされ、GPT-3.5 から大幅に改善されました。 AI テキスト検出機能は、GPT-4 などの新しいバージョンの言語モデルのテキストに対して効果的である必要があります。

AI検出器の範囲を広げるために、ここでのデータ収集は、13の異なるジャーナルと3つの異なる出版社、異なるAIプロンプト、および異なるAIテキスト生成モデルから行われます。

実際の人間のテキストと AI が生成したテキストを使用して XGBoost 分類器をトレーニングします。 その後、人間の文章、AIプロンプト、GPT-3.5やGPT-4などの方法でモデルを評価するための新しいパラダイムが生成されます。

その結果、本論文で提案するこの簡便な手法が非常に有効であることが示された。 プロンプトとモデルに応じて、AIが生成したテキストの認識における精度は98%〜100%です。 これに対し、OpenAI の最新の分類器の精度は 10% から 56% です。

この論文の検出器により、科学コミュニティは、化学ジャーナルへのChatGPTの浸透を評価し、その使用の結果を判断し、問題が発生した場合の緩和戦略を迅速に導入することができます。

結果と考察

著者らは、米国化学会(ACS)の10の化学雑誌から人間の文章のサンプルを選択しました。

これらには、無機化学、分析化学、Journal of Physical Chemistry A、Journal of Organic Chemistry、ACS Omega、Journal of Chemical Education、ACS Nano、Environmental Science and Technology、Studies in Toxicological Chemistry、およびACS Chemical Biologyが含まれます。

各ジャーナルの10本の論文の序文セクションを使用して、トレーニングセットには合計100の人間の文章サンプルがありました。 導入部が選ばれたのは、適切なプロンプトにより、これがChatGPTによって書かれている可能性が最も高い記事の部分だからです。

ジャーナルごとに10本の論文しか使用しないのは異常に小さなデータセットですが、著者らは、このような小さなトレーニングセットで効果的なモデルを開発できると仮定すると、最小限の計算能力でメソッドを迅速に展開できると仮定すると、まったく逆です。

同様のモデルが 1,000 万個のドキュメントを使用してトレーニングされました。

プロンプトデザインは、これらの研究の重要な側面です。 人間が書いたテキストごとに、AI コンパレーターは 2 つの異なるプロンプトを使用してテキストを生成し、どちらも ChatGPT に化学者のように書くように依頼するように設計されています。

ヒント1は、「xxxというタイトルの記事の300〜400語のイントロダクションをACSジャーナルのスタイルで書く」ことです。

ヒント2は、「このアブストラクトを含む記事の紹介を300〜400語でACSジャーナルのスタイルで書いてください」です。

予想通り、ChatGPT は、このエピソードの導入部に要約からの重要な事実と語彙の多くを組み込んでいます。

トレーニング データセット全体には、人工的に生成された 100 のイントロダクションと 200 の ChatGPT 生成イントロダクションが含まれています。 各段落が「書き方の例」になります。

各段落から、段落の複雑さ、文の長さのバリエーション、さまざまな句読点の使用、人間の科学者やChatGPTの著作でより頻繁に出現する可能性のある「流行語」に関する20の特徴のリストが抽出されました。

このモデルは、leave-one-out 交差検証戦略を使用して最適化されます。

上の表は、これらのライティングサンプル分類のトレーニングの結果を、完全なドキュメントレベルと段落レベルを含めて示しています。

正しく分類する最も簡単なテキスト カテゴリは、プロンプト 1 (見出し) の下の ChatGPT によって生成されたイントロダクションです。

このモデルは、個々の段落レベルでは 99%、ドキュメントレベルでは 100% の精度です。

プロンプト 2 (要約) の効果下での ChatGPT テキストの分類精度はわずかに低くなります。

人間が生成したテキストは正しく配布するのが難しくなりますが、それでも精度はかなり良好です。 グループとして、人間はChatGPTよりも多様な文体を持っているため、この方法を使用して文章サンプルを適切に分類することがより困難になる可能性があります。

実験の次のフェーズでは、トレーニングで使用されなかった新しいドキュメントを使用してモデルをテストします。

著者らは、簡単なテストと難しいテストの両方を設計しました。

簡単なテストでは、トレーニングデータと同じ性質のテストデータ(同じジャーナルから異なる記事を選ぶ)を使用し、新しく選択した記事のタイトルとアブストラクトを使用してChatGPTを促します。

そして、難しいテストでは、GPT-3.5の代わりにGPT-4を使ってAIテキストを生成しますが、GPT-4はGPT-3.5よりも優れていることが知られているので、分類精度は下がるのでしょうか?

上の表は、分類の結果を示しています。 以前の結果と比較して、パフォーマンスの低下はほとんどありません。

完全なドキュメント レベルでは、人間が生成したテキストの分類精度は 94%、プロンプト 2 の AI 生成テキストの精度は 98%、プロンプト 1 の AI テキスト分類の精度は 100% に達します。

トレーニングセットとテストセットは、段落レベルの分類精度に関しても非常によく似ています。

下部のデータは、GPT-3.5 テキスト特徴でトレーニングされたモデルが GPT-4 テキストを分類したときの結果を示しています。 すべてのカテゴリーで分類精度の低下は見られず、非常に良い結果であり、GPT-3.5およびGPT-4に対するこの手法の有効性を実証しています。

この方法の全体的な精度は称賛に値しますが、既存のAIテキスト検出器と比較してその価値を判断するのが最善です。 ここでは、2つの主要な検出ツールを同じテストセットデータを使用してテストしました。

最初のツールは、ChatGPTのメーカーであるOpenAIが提供するテキスト分類器です。 OpenAIは、分類器が完璧ではないことを認めていますが、それでも最高の公開製品です。

2番目の検出ツールはZeroGPTです。 そのメーカーは、98%の精度でAIテキストを検出すると主張しており、このツールは1,000万のドキュメントでトレーニングされています。 これは、現在の多くの評価で最も優れた分類器の1つです。 さらに、ZeroGPT メーカーは、この手法が GPT-3.5 と GPT-4 の両方で機能すると述べています。

上の図は、この記事のツールと上記の 2 つの製品のパフォーマンスを完全なドキュメント レベルで示しています。

3つの検出器はすべて、人間のテキストの認識において同様に高い精度を持っています。 ただし、AIが生成したテキストの評価に関しては、3つのツールには大きな違いがあります。

ヒント1を使用すると、この論文のツールはGPT-3.5とGPT-4の両方で100%の正解率を持っていますが、ZeroGPTはGPT-3.5テキストで32%の失敗率、GPT-4テキストで42%の失敗率を持っています。 OpenAIの製品はさらにパフォーマンスが悪く、GPT-4テキストの失敗率は70%近くでした。

より難易度の高いプロンプト2で生成されたAIテキストを用いる場合、後者2つの方法の分類精度はさらに低下する。

対照的に、この論文の検出器は、このグループでテストされた100のドキュメントのうち、1つのエラーしか犯しませんでした。

では、この方法は、トレーニング セットに含まれていないジャーナルへの ChatGPT の書き込みを正確に検出でき、異なるプロンプトが使用された場合でもこの方法は機能しますか?

著者らは、3つのジャーナルから150の新しい論文をプレゼンテーション用に選択しました:Cell Reports Physical Science、Cell Press; Nature Chemistry、Nature Publishing Groupより。 Journal of the American Chemical Society(トレーニングセットに含まれていないACSジャーナル)です。

また、2022年秋に大学生が執筆し、10の大学新聞に掲載された新聞記事100本を集めました。 この記事の検出器は科学的な文章に特化して最適化されているため、ニュース記事が高精度に分類されないことが予想されます。

グラフからわかるように、同じモデルを適用し、ACSジャーナルのテキストを使用してこの新しい例セットをトレーニングすると、正しい分類率は92%〜98%です。 これは、トレーニング セットで得られた結果と似ています。

また、予想通り、大学生が書いた新聞記事は、人間が作成したものとして適切に分類されていません。

実際、この記事で説明した機能やモデルで評価すると、ほとんどすべての記事が人間科学の記事よりもAIが生成したテキストに似ています。

ただし、この方法は、科学出版物の検出問題に対処することを目的としており、他の分野への拡張には適していません。

リソース

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)