トークンのシーケンスを含むテキスト入力が与えられた場合、単純なトークン操作(シノニムに置き換えるなど)を使用して、モデルをだまして誤った予測をさせることができます。 トークンベースの攻撃はブラックボックス攻撃です。 Pythonフレームワークでは、Morris et al.の2020年の論文「TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP」では、NLPモデルの敵対的サンプルの作成に使用できる単語やトークンの操作攻撃手法が多数実装されています。 この分野の研究作業の多くは、分類と含意予測の実験です。
例えば、Ribeiroら(2018)の研究「NLPモデルをデバッグするための意味的に等価な敵対的ルール」は、人為的に提案された「セマンティック等価敵対的ルール(SEAR)」に依存しており、モデルができるだけ少ないトークン操作で正しい答えを生成するのを妨げる可能性があります。 たとえば、ルールには、What を Which に置き換えたり、was を is に置き換えたりすることが含まれます。 また、キーワードの置き換えや同義語の置き換えなど、他の研究者が提案している方法もあります。
Ebrahimi et al. (2018) の論文「HotFlip: White-Box Adversarial Examples for Text Classification」では、テキスト操作をベクトル空間の入力として扱い、これらのベクトルで失われた導関数を測定しています。 HotFlipは、トークンの削除や追加のために拡張することができます。
Wallace et al.(2019)の論文「Universal Adversarial Triggers for Attacking and Analyzing NLP」では、トークンに対して勾配ガイド検索を実行して、モデルが特定の予測を出力するように誘導する短いシーケンスを見つける方法を提案しています (UAT、Universal Adversarial Trigger)です。 UAT は入力に依存しないため、これらのトリガーは、データセットからの任意の入力にプレフィックス (またはサフィックス) として接続できます。
Shin et al., 2020 年の Auto: Evociting Knowledge from Language Models with Automatically Generated s では、同じグラデーションベースの検索戦略を使用して、さまざまなタスクに最も効果的なテンプレートを見つけます。
ジェイルブレイクとは、LLMを騙して、避けるべき有害なコンテンツを出力させようとする敵対的な試みです。 ジェイルブレイクはブラックボックス攻撃であるため、語彙の組み合わせはヒューリスティックと人間の探索に基づいています。 Wei et al.(2023)の論文「Jailbroken: How Does LLM Safety Training Fail?」では、LLMの安全性について2つの故障モードが提案されており、ジェイルブレイク攻撃の設計の指針として活用できます。
Greshake et al. (2023) の論文「Not what you've signed up for: Comcompromise Real-World LLM-Integrated Applications with Indirect Injection」では、インジェクション攻撃を高レベルで検討しています。 攻撃が詳細な手法を提供せず、標的を提供するだけであっても、モデルが自動的に実装することは可能であると主張しています。 モデルが外部の API やツールにアクセスできる場合、より多くの情報 (専有情報を含む) にアクセスすると、フィッシング攻撃やスヌーピング攻撃のリスクが高まる可能性があります。
人間が関与するREDチーム戦略
Wallace et al. (2019) は、論文「Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering」で、人間がモデルを分解するようにガイドするツールを構築することを目的として、人間が関与する敵対的生成を提案しました。
ある実験では、人間のトレーナーがしなければならなかったのは、安全な分類器が暴力的なコンテンツを分類できなかったケースを見つけることでした。 Ziegler et al.(2022)は、論文「Adversarial Training for High-Stakes Reliability」の中で、人間の敵対者が分類器の故障状態を見つけ、それをより迅速かつ効率的に排除するのを支援するために使用できるツールを作成しました。 ツール支援による書き換えは、完全な手動書き換えよりも高速で、サンプルあたりの所要時間を20分から13分に短縮します。 正確には、人間のライターを支援するために、各トークンの有意スコアの表示、トークンの置換、挿入という2つの機能を導入しました。
モデルの出力が有害かどうかを判断できる高品質の分類器が既にあると仮定すると、それを報酬として使用して、ターゲット モデルの出力に対する分類子のスコアを最大化する入力を取得するようにレッド チーム モデルをトレーニングできます。 r (x, y) を、テスト入力 x が与えられた場合に出力 y が有害かどうかを判断できるレッド チーム分類器の 1 つとします。 Perez et al. (2022) の論文「Red Teaming Language Models with Language Models」によると、敵対的攻撃サンプルの検出は、簡単な 3 つのステップで行われます。
Casper et al. (2023) の論文「Explore, Establish, Exploit: Red Teaming Language Models from Scratch」では、人間が関与するレッドチームプロセスを設計しています。 Perez et al. (2022) との主な違いは、ターゲット モデルのデータ サンプリング ステージを明示的に設定し、タスク固有のレッド チーム分類器をトレーニングするために人間のラベルを収集できることです。 これは、次の図に示すように、探索、確立、および悪用の 3 つのフェーズで構成されます。
図15:探索・構築・活用の3段階のアプローチによるレッドチーム戦略プロセス
Mehrabi et al. 2023 の論文「FLIRT: Feedback Loop In-context Red Teaming」では、レッド チーム LM p_red のコンテキスト学習に依存して、画像またはテキスト生成モデル p を攻撃し、安全でないコンテンツを出力させます。
Madry et al. (2017), "Towards Deep Learning Models Resistant to Adversarial Attacks" は、敵対的ロバストネスのための優れたフレームワークを提案しており、これは鞍点問題としてモデル化され、ロバストな最適化問題になります。 このフレームワークは、分類タスクへの継続的な入力のために提案されていますが、かなり簡潔な数式で2層最適化プロセスを記述しているため、共有する価値があります。
Xie et al. 2023 の論文「Defending ChatGPT against Jailbreak Attack via Self-Reminder」では、敵対的攻撃からモデルを保護するためのシンプルで直感的な方法を発見しました。 これにより、脱獄攻撃の成功率が大幅に低下しますが、このような命令はモデルを保守的にしたり(たとえば、クリエイティブな文章に悪影響を及ぼしたり)、場合によっては指示を誤って解釈したり(たとえば、安全-安全でない分類の場合)できるため、モデルの生成の品質に副作用があります。
敵対的攻撃のリスクを軽減するために、最も一般的な方法は、これらの攻撃サンプルを使用してモデルをトレーニングすることであり、これは「敵対的トレーニング」と呼ばれます。 これは最強の防御策とされていますが、堅牢性とモデル性能のバランスを取る必要があります。 Jain et al. 2023 は、2 つの敵対的トレーニング セットアップを実験的にテストし、その結果を論文「Baseline Defenses for Adversarial Attacks Against Aligned Language Models」で報告しました。 (2) トレーニング ステップごとに、拒否応答に対して降順ステップを実行し、レッド チームの不適切な応答に対して昇順ステップを実行します。 最終的に、(2)の手法は、モデルの品質がはるかに低く、攻撃の成功率がわずかに低下したため、役に立たないことがわかりました。
OpenAIのセキュリティシステムの担当者は、長い記事をくまなく調べました:大規模モデルの敵対的攻撃と防御
出典: Heart of the Machine
ChatGPTのリリースにより、大規模言語モデルのアプリケーションが大規模に加速しています。 OpenAIのセキュリティシステムチームは、アライメント中にモデルのデフォルトのセキュリティ動作を構築する方法の研究に多大なリソースを投資してきました。 ただし、敵対的な攻撃や脱獄によって、モデルが予期しない出力になる可能性はあります。
現在、敵対的攻撃に関する研究の多くは、画像、つまり連続した高次元空間に焦点を当てています。 テキストなどの離散データの場合、勾配信号がないため、攻撃がはるかに困難になることが一般的に認められています。 Lilian Weng は以前、このトピックに関する記事「Controllable Text Generation」を書いています。 簡単に言うと、LLMを攻撃することは、基本的に、モデルが出力する特定のクラス項目の(安全でない)コンテンツを制御することです。
記事のアドレス:
LLMを攻撃する研究の別の分野は、事前学習済みデータや私的な知識を抽出したり、データをポイズニングしてモデル学習プロセスを攻撃したりすることです。 しかし、それはこの記事の主題ではありません。
基本的な知識の脅威モデル
敵対的攻撃とは、モデルを騙して予期しないものを出力させる入力です。 初期の研究の多くは分類タスクに焦点を当てていましたが、最近の研究では、生成モデルの出力に重点が置かれ始めています。 この記事は大規模言語モデルに関するものであり、攻撃は推論段階でのみ発生することを前提としており、モデルの重みは固定されています。
分類する
これまで、研究コミュニティは分類器に対する敵対的攻撃に関心を寄せており、その多くは画像の分野にありました。 LLM は分類にも使用できます。 入力 x と分類器 f(.) が与えられます。 では、f(x) ≠f(x_adv) となるような入力 x_adv の微妙な敵対的バージョンを見つけたいと考えています。
テキスト生成
入力 x と生成モデル p(.) の場合、モデルは標本 y~p(.|𝐱)。 ここでの敵対的攻撃は、p(x) を見つけて、y がモデルの組み込みのセキュリティ動作 (違法なトピックに関する安全でないコンテンツの出力、個人情報の漏洩、モデルのトレーニング データなど) に違反するようにすることです。 ビルドタスクの攻撃が成功するかどうかを判断するのは簡単ではなく、yが安全か、人間による精査が必要かを判断するために、超高品質の分類器が必要です。
ホワイトボックスとブラックボックス
ホワイトボックス攻撃は、攻撃者がモデルの重み、アーキテクチャ、およびトレーニングワークフローに完全にアクセスできることを前提としているため、攻撃者は勾配信号を取得できます。 攻撃者がすべてのトレーニングデータにアクセスできることを前提としていません。 これは、オープンソースモデルにのみ適用されます。 ブラックボックス攻撃は、攻撃者がAPIタイプのサービスにしかアクセスできないことを前提としており、攻撃者はモデルの詳細を知らなくても、入力xを提供し、フィードバックのサンプルyを取得できます。
敵対的攻撃の種類
LLMを騙して安全でないコンテンツを出力させることができる敵対的な入力を攻撃者が見つけるのを助けるには、さまざまな方法があります。 ここでは、その5つの方法をご紹介します。
トークンのシーケンスを含むテキスト入力が与えられた場合、単純なトークン操作(シノニムに置き換えるなど)を使用して、モデルをだまして誤った予測をさせることができます。 トークンベースの攻撃はブラックボックス攻撃です。 Pythonフレームワークでは、Morris et al.の2020年の論文「TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP」では、NLPモデルの敵対的サンプルの作成に使用できる単語やトークンの操作攻撃手法が多数実装されています。 この分野の研究作業の多くは、分類と含意予測の実験です。
例えば、Ribeiroら(2018)の研究「NLPモデルをデバッグするための意味的に等価な敵対的ルール」は、人為的に提案された「セマンティック等価敵対的ルール(SEAR)」に依存しており、モデルができるだけ少ないトークン操作で正しい答えを生成するのを妨げる可能性があります。 たとえば、ルールには、What を Which に置き換えたり、was を is に置き換えたりすることが含まれます。 また、キーワードの置き換えや同義語の置き換えなど、他の研究者が提案している方法もあります。
勾配ベースの攻撃
ホワイトボックス攻撃の場合、攻撃者はすべてのモデルパラメータとアーキテクチャを取得できます。 その結果、攻撃者は勾配降下法を利用して、最も効果的な攻撃ベクトルをプログラムで学習できます。 勾配ベースの攻撃は、オープンソースのLLMなどのホワイトボックス設定でのみ機能します。
Guo et al. (2021) によって提案された Gradient-based Adversarial Attacks against Text Transformers は、Gumbel-Softmax 近似手法を使用して敵対的損失の微分可能性を最適化し、BERTScore と perplexity を使用して知覚可能性と流暢さを向上させます。
ただし、Gumbel-softmax トリックは、トークンの削除や追加に対してスケーラブルではなく、トークンの置換によって制限されます。
Ebrahimi et al. (2018) の論文「HotFlip: White-Box Adversarial Examples for Text Classification」では、テキスト操作をベクトル空間の入力として扱い、これらのベクトルで失われた導関数を測定しています。 HotFlipは、トークンの削除や追加のために拡張することができます。
Wallace et al.(2019)の論文「Universal Adversarial Triggers for Attacking and Analyzing NLP」では、トークンに対して勾配ガイド検索を実行して、モデルが特定の予測を出力するように誘導する短いシーケンスを見つける方法を提案しています (UAT、Universal Adversarial Trigger)です。 UAT は入力に依存しないため、これらのトリガーは、データセットからの任意の入力にプレフィックス (またはサフィックス) として接続できます。
Shin et al., 2020 年の Auto: Evociting Knowledge from Language Models with Automatically Generated s では、同じグラデーションベースの検索戦略を使用して、さまざまなタスクに最も効果的なテンプレートを見つけます。
上記のトークン検索方法は、ビーム検索で強化できます。 最適なトークン埋め込みを探すときは、1つの候補ではなく上位k個の候補を選択し、現在のデータバッチを左から右に検索し、L_advに基づいて各ビームをスコアリングできます。
UAT L_adv の損失は、特定のタスクに合わせて設計する必要があります。 分類または読解は、クロスエントロピーに依存しています。
なぜUATは機能するのですか? 興味深い質問ですね。 UATは入力に依存せず、埋め込み、トークン化スキーム、アーキテクチャが異なるモデル間で転送できるため、モデルのグローバルな動作にすでに組み込まれているトレーニングデータのバイアスを効果的に利用できる可能性があります。
UAT攻撃には、検出が容易であるという欠点があります。 その理由は、学習したトリガーが無意味であることが多いためです。 Mehrabi et al.(2022)は、論文「Robust Conversational Agents against Imperceptible Toxicity Triggers」で、UATの2つのバリアントを調べました。 目標は、特定の会話で有害な応答を効果的に引き起こす攻撃的なメッセージを作成すると同時に、会話全体を通して攻撃が流暢で、首尾一貫していることを確認することです。
这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。
UAT-LMとUTSC-1はUATベンチマークと同等のパフォーマンスを発揮しますが、UAT攻撃フレーズは驚くほど紛らわしく、UAT-LMとUTSC-1の両方よりもはるかに高くなっています。 混乱が激しいと、攻撃の検出と軽減が容易になります。 人間の評価によると、UTSC-1攻撃は、他の攻撃方法よりも一貫性があり、流動的で、関連性のある結果を生み出します。
Zou et al. (2023) の論文「Robust Conversational Agents against Imperceptible Toxicity Triggers」では、一般的な敵対的トリガー トークンを入力要求のサフィックスとして接続する場合についても検討しています。 彼らは特に、モデルが応答を拒否するはずのLLMへの悪意のあるリクエストに注目しました。 実際、犯罪的な提案など、許可されていないコンテンツのカテゴリを拒否することは、GPT-4に組み込まれた重要なセキュリティ対策です。 ここでの敵対的目標は、LLMが回答を拒絶すべき場合でも、肯定的な応答を出力するように誘導することです。 つまり、悪意のあるリクエストを受信すると、モデルは「もちろん、これをする必要があります...」と応答し、予想される肯定的な応答も一部のユーザーを複製するように構成されているため、トピックの接尾辞を単純に変更して「もちろん」の応答を最適化することを回避します。 損失関数は、出力ターゲット応答のNLL(負の対数尤度)と同じくらい単純です。
彼らは、Vicuna-7bとVicuna-13bの2つの異なるモデルで実験を行い、貪欲な座標勾配(GCG)ベースの検索を使用して候補を見つけ、候補が考えられるすべての単一トークン置換で損失を最小限に抑えることができるようにしました。
彼らの攻撃シーケンスは完全にオープンソースモデルでトレーニングされていましたが、他の商用モデルにも驚くほど移植可能であり、オープンソースモデルに対するホワイトボックス攻撃は、特に低レベルのトレーニングデータが重複している場合に、プロプライエタリモデルに対しても効果的であることを示唆しています。 なお、Vicunaのトレーニングは、蒸留であるGPT-3.5-turbo(shareGPT経由)から収集したデータを使用しているため、この攻撃はホワイトボックス攻撃に近いものです。
Jones et al. (2023) によって提案された自己回帰ランダム座標ライズ (ARCA) は、より広範な最適化問題を検討して、特定の動作パターンに準拠する入出力ペア (x, y) を見つけます。 監査目標として、φ : X×Y→R があり、ペア (入力、出力完了) をスコアにマップします。
脱獄デザイン
ジェイルブレイクとは、LLMを騙して、避けるべき有害なコンテンツを出力させようとする敵対的な試みです。 ジェイルブレイクはブラックボックス攻撃であるため、語彙の組み合わせはヒューリスティックと人間の探索に基づいています。 Wei et al.(2023)の論文「Jailbroken: How Does LLM Safety Training Fail?」では、LLMの安全性について2つの故障モードが提案されており、ジェイルブレイク攻撃の設計の指針として活用できます。
1. 競合する目標: これは、モデルの機能 (たとえば、「常に命令に従う必要がある」) がセキュリティ目標と競合する場合です。 競合するターゲットを悪用するジェイルブレイク攻撃の例には、次のようなものがあります。
2. ミスマッチの一般化:これは、安全トレーニングが可能な領域に一般化できないことを指します。 これは、入力がモデルのセキュリティで保護されたトレーニング データ分布 (OOD) の外部にあるが、広範な事前トレーニング済みコーパスのスコープ内にある場合に発生します。 たとえば、次のようになります。
Wei et al.(2023)は、上記の原則から構築された組み合わせ戦略を含む、多数の脱獄方法を実験しています。
Greshake et al. (2023) の論文「Not what you've signed up for: Comcompromise Real-World LLM-Integrated Applications with Indirect Injection」では、インジェクション攻撃を高レベルで検討しています。 攻撃が詳細な手法を提供せず、標的を提供するだけであっても、モデルが自動的に実装することは可能であると主張しています。 モデルが外部の API やツールにアクセスできる場合、より多くの情報 (専有情報を含む) にアクセスすると、フィッシング攻撃やスヌーピング攻撃のリスクが高まる可能性があります。
人間が関与するREDチーム戦略
Wallace et al. (2019) は、論文「Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering」で、人間がモデルを分解するようにガイドするツールを構築することを目的として、人間が関与する敵対的生成を提案しました。
彼らは、QuizBowl QAデータセットを実験し、人間がテレビのクイズ番組「Jeopardy」と同様の質問を書き、それを使用してモデルに誤った予測をさせることができる敵対的ライティングインターフェイスを設計しました。 重要度に応じて、各単語が色分けされます(つまり、単語が削除されるとモデルの予測確率が変わります)。 単語の重要度は、単語の埋め込みに基づくモデルの勾配によって近似されます。
ある実験では、人間のトレーナーがしなければならなかったのは、安全な分類器が暴力的なコンテンツを分類できなかったケースを見つけることでした。 Ziegler et al.(2022)は、論文「Adversarial Training for High-Stakes Reliability」の中で、人間の敵対者が分類器の故障状態を見つけ、それをより迅速かつ効率的に排除するのを支援するために使用できるツールを作成しました。 ツール支援による書き換えは、完全な手動書き換えよりも高速で、サンプルあたりの所要時間を20分から13分に短縮します。 正確には、人間のライターを支援するために、各トークンの有意スコアの表示、トークンの置換、挿入という2つの機能を導入しました。
Xu et al. (2021) "Bot-Adversarial Dialogue for Safe Conversational Agents"は、人間がモデルを騙して間違いを犯させる(例えば、安全でないコンテンツを出力する)フレームワークであるBot-Adversarial Dialogue(BAD)を提案しています。 彼らは、モデルとクラウドソーシングワーカーの間の5,000セット以上の会話を収集しました。 各会話セットは 14 ラウンドで構成され、安全でない会話ラウンドの数に基づいてモデルをスコアリングしました。 その結果、約2500セットの会話が不快なラベルで表現されたBADデータセットができあがりました。
Anthropicのレッドチームデータセットには、人間のレッドチーム担当者とLLMの会話から収集された約40,000件の敵対的攻撃が含まれています。 その結果、RLHFのサイズが大きくなればなるほど、攻撃が難しくなることがわかった。 GPT-4 や DALL-E 3 など、OpenAI がリリースした大規模なモデルでは、通常、安全準備のために人間の専門家のレッド チームを使用します。
データセットのアドレス:
レッドチーム戦略のモデル
ヒューマン レッド チーム戦略は強力ですが、大規模に実装することは難しく、トレーニングを受けた多数の専門家が必要になる場合があります。 ここで、レッドチームモデルであるレッドを学習して、ターゲットのLLMに立ち向かい、安全でない応答を与えるようにトリガーできると想像してください。 モデルベースのレッドチーム戦略では、攻撃が成功したかどうかをどのように判断するかが主な課題であり、これを知ることによってのみ、レッドチームモデルをトレーニングするための適切な学習シグナルを構築できます。
モデルの出力が有害かどうかを判断できる高品質の分類器が既にあると仮定すると、それを報酬として使用して、ターゲット モデルの出力に対する分類子のスコアを最大化する入力を取得するようにレッド チーム モデルをトレーニングできます。 r (x, y) を、テスト入力 x が与えられた場合に出力 y が有害かどうかを判断できるレッド チーム分類器の 1 つとします。 Perez et al. (2022) の論文「Red Teaming Language Models with Language Models」によると、敵対的攻撃サンプルの検出は、簡単な 3 つのステップで行われます。
彼らは、レッドチームモデルからサンプリングしたり、レッドチームモデルをさらにトレーニングして効率を高めたりするために、ゼロショット生成、ランダム少数ショット生成、教師あり学習、強化学習など、いくつかの方法を試しました。
Casper et al. (2023) の論文「Explore, Establish, Exploit: Red Teaming Language Models from Scratch」では、人間が関与するレッドチームプロセスを設計しています。 Perez et al. (2022) との主な違いは、ターゲット モデルのデータ サンプリング ステージを明示的に設定し、タスク固有のレッド チーム分類器をトレーニングするために人間のラベルを収集できることです。 これは、次の図に示すように、探索、確立、および悪用の 3 つのフェーズで構成されます。
Mehrabi et al. 2023 の論文「FLIRT: Feedback Loop In-context Red Teaming」では、レッド チーム LM p_red のコンテキスト学習に依存して、画像またはテキスト生成モデル p を攻撃し、安全でないコンテンツを出力させます。
各 FLIRT イテレーションで、次の操作を行います。
FLIRT のコンテキスト テンプレートを更新する方法には、FIFO、LIFO、Scoring、Scoring-LIFO といういくつかの戦略があります。 詳細は原著論文を参照。
サドルポイント攻めの問題への対処法
Madry et al. (2017), "Towards Deep Learning Models Resistant to Adversarial Attacks" は、敵対的ロバストネスのための優れたフレームワークを提案しており、これは鞍点問題としてモデル化され、ロバストな最適化問題になります。 このフレームワークは、分類タスクへの継続的な入力のために提案されていますが、かなり簡潔な数式で2層最適化プロセスを記述しているため、共有する価値があります。
ペア (サンプル、ラベル)、(x,y)∈D で構成されるデータ分布に基づく分類タスクを考え、ロバストな分類器を学習させる目的が鞍点問題であると考えてみましょう。
その目的は、内部最大化問題と外部最小化問題で構成されます。
*内部最大化:大きな損失をもたらす可能性のある最も効果的な敵対的データポイントx+δを探します。 すべての敵対的攻撃手法は、最終的には、この内部プロセスの損失を最大化する方法に要約されます。
LLMの堅牢性に関するいくつかの研究作業
ここでは、LLMの頑健性に関する研究の一部を簡単に紹介します。
Xie et al. 2023 の論文「Defending ChatGPT against Jailbreak Attack via Self-Reminder」では、敵対的攻撃からモデルを保護するためのシンプルで直感的な方法を発見しました。 これにより、脱獄攻撃の成功率が大幅に低下しますが、このような命令はモデルを保守的にしたり(たとえば、クリエイティブな文章に悪影響を及ぼしたり)、場合によっては指示を誤って解釈したり(たとえば、安全-安全でない分類の場合)できるため、モデルの生成の品質に副作用があります。
敵対的攻撃のリスクを軽減するために、最も一般的な方法は、これらの攻撃サンプルを使用してモデルをトレーニングすることであり、これは「敵対的トレーニング」と呼ばれます。 これは最強の防御策とされていますが、堅牢性とモデル性能のバランスを取る必要があります。 Jain et al. 2023 は、2 つの敵対的トレーニング セットアップを実験的にテストし、その結果を論文「Baseline Defenses for Adversarial Attacks Against Aligned Language Models」で報告しました。 (2) トレーニング ステップごとに、拒否応答に対して降順ステップを実行し、レッド チームの不適切な応答に対して昇順ステップを実行します。 最終的に、(2)の手法は、モデルの品質がはるかに低く、攻撃の成功率がわずかに低下したため、役に立たないことがわかりました。
ホワイトボックス攻撃は、無意味に見える対立を引き起こすことが多いため、混乱によって検出される可能性があります。 もちろん、明示的に最適化して混乱を減らすことで、UTの亜種であるUAT-LMなどのホワイトボックス攻撃は、この検出方法を直接回避できます。 ただし、これは攻撃の成功率の低下にもつながります。
Jain et al. 2023 では、セマンティックな意味を維持しながら敵対的な変更を削除できるように、テキスト入力の前処理の方法もテストしています。