LLMs قوية ، وإذا استخدمها شخص لديه دوافع خفية للقيام بأشياء سيئة ، فقد يكون لها عواقب وخيمة لا يمكن التنبؤ بها. في حين أن معظم LLMs التجارية ومفتوحة المصدر لديها بعض الأمان المدمج ، إلا أنها لا تحمي بالضرورة من مجموعة متنوعة من الهجمات العدائية. في الآونة الأخيرة ، نشرت ليليان وينغ ، رئيسة فريق أنظمة السلامة OpenAI ، منشور مدونة بعنوان "هجمات الخصومة على LLMs" ، والتي صنفت أنواع الهجمات العدائية ضد LLMs وقدمت لفترة وجيزة بعض أساليب الدفاع.
المصدر الأصلي: قلب الآلة
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
مع إصدار ChatGPT ، تتسارع تطبيقات نماذج اللغة الكبيرة على نطاق واسع. استثمر فريق أنظمة الأمان في OpenAI موارد كبيرة في البحث عن كيفية بناء سلوكيات الأمان الافتراضية للنماذج أثناء المحاذاة. ومع ذلك ، لا يزال من الممكن لهجوم عدائي أو كسر حماية أن يجعل إخراج النموذج شيئا لا نتوقع رؤيته.
في الوقت الحاضر ، يركز الكثير من الأبحاث حول الهجمات العدائية على الصور ، أي في المساحات عالية الأبعاد المستمرة. بالنسبة للبيانات المنفصلة مثل النص ، من المقبول عموما أن الهجوم سيكون أكثر صعوبة بسبب نقص إشارات التدرج. كتبت ليليان وينغ سابقا مقالا حول هذا الموضوع ، توليد النص القابل للتحكم. ببساطة: مهاجمة LLM هو التحكم بشكل أساسي في المحتوى (غير الآمن) لعنصر فئة معين يخرجه النموذج.
عنوان المقال:
فرع آخر من الأبحاث التي تهاجم LLMs هو استخراج البيانات المدربة مسبقا أو المعرفة الخاصة أو مهاجمة عملية التدريب النموذجية عن طريق تسميم البيانات. لكن هذا ليس موضوع هذا المقال.
نموذج تهديد المعرفة الأساسية
الهجوم العدائي هو مدخل يخدع النموذج لإخراج شيء لا نتوقعه. في حين أن الكثير من الأبحاث السابقة ركزت على مهام التصنيف ، فقد بدأ العمل الأحدث في التركيز بشكل أكبر على مخرجات النماذج التوليدية. تتناول هذه المقالة نماذج اللغة الكبيرة وتفترض أن الهجوم يحدث فقط في مرحلة الاستدلال ، مما يعني أن أوزان النموذج ثابتة.
الشكل 1: ملف تعريف التهديد لتطبيقات LLM
جنس
في الماضي ، كان مجتمع البحث أكثر اهتماما بالهجمات العدائية على المصنفات ، والعديد منها في مجال الصور. يمكن أيضا استخدام LLMs للتصنيف. بالنظر إلى إدخال x ومصنف f (.) ، نريد العثور على نسخة خصومية دقيقة من الإدخال x \ _adv بحيث f (x) ≠f (x \ _adv).
توليد النص
بالنظر إلى الإدخال x والنموذج التوليدي p (.) ، يمكن للنموذج إخراج عينة y ~ p (.|𝐱)。 الهجوم العدائي هنا هو العثور على p (x) بحيث ينتهك y سلوكيات الأمان المضمنة في النموذج ، مثل إخراج محتوى غير آمن حول مواضيع غير قانونية أو تسريب معلومات خاصة أو بيانات تدريب النموذج. ليس من السهل الحكم على نجاح الهجوم لمهمة بناء ، الأمر الذي يتطلب تصنيفا فائق الجودة لتحديد ما إذا كان y آمنا أو يتطلب تدقيقا بشريا.
الصندوق الأبيض مقابل الصندوق الأسود
تفترض هجمات المربع الأبيض أن المهاجم لديه حق الوصول الكامل إلى أوزان النموذج والبنية ومهام سير عمل التدريب، بحيث يمكن للمهاجم الحصول على إشارات التدرج. نحن لا نفترض أن المهاجم سيتمكن من الوصول إلى جميع بيانات التدريب. هذا ينطبق فقط على نموذج المصدر المفتوح. تفترض هجمات الصندوق الأسود أن المهاجم يمكنه فقط الوصول إلى الخدمات من نوع واجهة برمجة التطبيقات - يمكن للمهاجم توفير إدخال x والحصول على عينة y من التعليقات دون معرفة المزيد عن النموذج.
أنواع الهجمات العدائية
هناك عدد من الطرق المختلفة لمساعدة المهاجم في العثور على مدخلات عدائية يمكنها خداع LLMs لإخراج محتوى غير آمن. فيما يلي خمس طرق للقيام بذلك.
token 操作
بالنظر إلى جزء من إدخال النص الذي يحتوي على سلسلة من الرموز المميزة ، يمكننا استخدام عملية رمز مميز بسيطة (مثل استبدالها بالمرادفات) لخداع النموذج لإجراء تنبؤ خاطئ. الهجمات القائمة على الرمز المميز هي هجمات الصندوق الأسود. في إطار عمل Python ، موريس وآخرون ورقة 2020 "TextAttack: إطار عمل للهجمات العدائية ، وزيادة البيانات ، والتدريب العدائي في البرمجة اللغوية العصبية" ينفذ عددا من طرق هجوم التلاعب بالكلمات والرموز المميزة التي يمكن استخدامها لإنشاء عينات عدائية لنماذج البرمجة اللغوية العصبية. الكثير من العمل البحثي في هذا المجال تجارب مع التصنيف والتنبؤ بالتبعية.
على سبيل المثال ، تعتمد دراسة Ribeiro et al (2018) "قواعد الخصومة المكافئة لغويا لتصحيح نماذج البرمجة اللغوية العصبية" على "قواعد خصومة التكافؤ الدلالي (SEAR)" المقترحة بشكل مصطنع ، والتي يمكن أن تمنع النموذج من توليد الإجابة الصحيحة بأقل عدد ممكن من عمليات الرمز المميز. على سبيل المثال ، تتضمن القواعد استبدال ماذا مع الذي وكان مع هو. بالإضافة إلى ذلك ، هناك طرق أخرى اقترحها باحثون آخرون ، مثل استبدال الكلمات الرئيسية واستبدال المرادفات.
** الهجمات القائمة على التدرج **
في حالة هجوم الصندوق الأبيض ، يمكن للمهاجم الحصول على جميع معلمات النموذج والبنى. نتيجة لذلك ، يمكن للمهاجمين الاعتماد على النسب المتدرج لتعلم نواقل الهجوم الأكثر فعالية برمجيا. تعمل الهجمات المستندة إلى التدرج فقط في إعدادات المربع الأبيض ، مثل LLMs مفتوحة المصدر.
تستخدم الهجمات العدائية القائمة على التدرج ضد محولات النص التي اقترحها Guo et al. (2021) تقنية التقريب Gumbel-Softmax لتحسين قابلية التمايز بين الخسائر العدائية ، كما أنها تستخدم BERTScore والحيرة لتعزيز الإدراك والطلاقة.
ومع ذلك ، فإن خدعة Gumbel-softmax غير قابلة للتطوير لإزالة الرمز المميز أو إضافته ، ولكنها محدودة باستبدال الرمز المميز.
يعامل Ebrahimi et al. (2018) في ورقة "HotFlip: أمثلة خصومة الصندوق الأبيض لتصنيف النصوص" عمليات النص كمدخلات في فضاء متجه ، ويقيس المشتقات المفقودة على هذه المتجهات. يمكن تمديد HotFlip لإزالة الرمز المميز أو إضافته.
يقترح Wallace et al. (2019) ورقة "مشغلات الخصومة العالمية لمهاجمة وتحليل البرمجة اللغوية العصبية" طريقة لإجراء بحث موجه بالتدرج على رمز مميز للعثور على تسلسل قصير يحفز النموذج على إخراج تنبؤ محدد ، وهو ما يسمى مشغلات الخصومة العالمية (UAT ، الزناد العدائي العالمي). UAT هو محايد الإدخال ، مما يعني أنه يمكن توصيل هذه المشغلات كبادئة (أو لاحقة) بأي إدخال من مجموعة البيانات.
شين وآخرون ، 2020 تلقائي: استنباط المعرفة من نماذج اللغة باستخدام Automatically Generated s يستخدم نفس استراتيجية البحث القائمة على التدرج للعثور على القوالب الأكثر فعالية للمهام المتنوعة.
يمكن تحسين طريقة البحث عن الرمز المميز أعلاه باستخدام بحث الحزمة. عند البحث عن تضمين الرمز المميز الأمثل ، يمكنك اختيار مرشحي top-k بدلا من مرشح واحد ، والبحث من اليسار إلى اليمين في دفعة البيانات الحالية ، وتسجيل كل حزمة بناء على L \ _adv.
الشكل 4: رسم تخطيطي لكيفية عمل UAT
يجب تصميم فقدان UAT L \ _adv للمهمة المحددة. يعتمد التصنيف أو فهم القراءة على الإنتروبيا المتقاطعة.
الشكل 5: أمثلة UAT لأنواع مختلفة من المهام اللغوية
لماذا يعمل UAT؟ إنه سؤال مثير للاهتمام. نظرا لأن UAT محايد للمدخلات ويمكن نقله بين النماذج ذات التضمين ومخططات الترميز والبنى المختلفة ، فقد يكونون قادرين على الاستفادة الفعالة من التحيز في بيانات التدريب المضمنة بالفعل في السلوك العالمي للنموذج.
هناك جانب سلبي لاستخدام هجمات UAT: من السهل اكتشافها. والسبب في ذلك هو أن المحفزات المستفادة غالبا ما تكون بلا معنى. Mehrabi et al. (2022) فحص نوعين مختلفين من UAT في ورقة عوامل المحادثة القوية ضد مشغلات السمية غير المحسوسة ، والتي تجعل المشغلات المكتسبة غير محسوسة في سياق المحادثة متعددة الجولات. الهدف هو إنشاء رسالة مسيئة تؤدي بشكل فعال إلى استجابة سامة في محادثة معينة ، مع ضمان أن يكون الهجوم بطلاقة ومتماسكة ومتسقة طوال المحادثة.
这两种变体分别是 UAT-LM(مشغل الخصومة العالمي مع فقدان نموذج اللغة)和 UTSC(Unigram Trigger with Selection Criteria)。
الشكل 6: رسم تخطيطي لكيفية عمل UTSC
أداء UAT-LM و UTSC-1 على قدم المساواة مع معايير UAT ، لكن عبارات هجوم UAT مربكة بشكل مدهش وأعلى بكثير من كل من UAT-LM و UTSC-1. الارتباك الشديد يجعل الهجمات أسهل في اكتشافها وتخفيفها. وفقا للتقييمات البشرية ، تنتج هجمات UTSC-1 نتائج أكثر اتساقا وانسيابية وذات صلة من طرق الهجوم الأخرى.
* الشكل 7: معدل نجاح الهجوم كما تم قياسه بواسطة مصنفات سمية مختلفة بناء على استجابة نموذج المدافع للهجوم الذي تم إنشاؤه. *
تبحث ورقة Zou et al. (2023) "عوامل محادثة قوية ضد مشغلات السمية غير المحسوسة" أيضا في حالة توصيل رمز تشغيل عدائي عام كلاحقة لطلب إدخال. نظروا على وجه التحديد في الطلبات الخبيثة إلى LLMs - والتي يجب أن يرفض النموذج الإجابة عليها. في الواقع ، يعد رفض فئات المحتوى غير المسموح بها ، مثل الاقتراحات الجنائية ، إجراء أمنيا مهما مدمجا في GPT-4. الهدف العدائي هنا هو حث LLM على إخراج استجابة إيجابية حتى عندما يجب أن ترفض الإجابة. هذا يعني أنه عند تلقي طلب ضار ، يستجيب النموذج على النحو التالي ، "بالطبع ، تحتاج إلى القيام بذلك ..." ، ويتم أيضا تكوين الاستجابة الإيجابية المتوقعة لتكرار بعض المستخدمين ، وذلك لتجنب مجرد تغيير لاحقة الموضوع لتحسين استجابة "بالطبع". دالة الخسارة بسيطة مثل NLL (احتمال السجل السلبي) لاستجابة هدف الإخراج.
* الشكل 8: توضيح لمكان إدخال الزناد العدائي. تمثل علامة التعجب الحمراء الرمز المميز للخصومة الذي يجب تعلمه. *
لقد جربوا على نموذجين مختلفين ، Vicuna-7b و Vicuna-13b ، باستخدام بحث قائم على تدرج الإحداثيات الجشع (GCG) للعثور على مرشح بشراهة حتى يتمكن المرشح من تقليل الخسائر عبر جميع بدائل الرمز المميز الفردية الممكنة.
على الرغم من أن تسلسل هجماتهم تم تدريبه بالكامل على نماذج مفتوحة المصدر ، إلا أنها كانت محمولة بشكل مدهش على النماذج التجارية الأخرى ، مما يشير إلى أن هجمات الصندوق الأبيض على النماذج مفتوحة المصدر يمكن أن تكون فعالة أيضا ضد النماذج المسجلة الملكية ، خاصة عندما يكون هناك تداخل في بيانات التدريب منخفضة المستوى. لاحظ أن تدريب Vicuna يستخدم البيانات التي تم جمعها من GPT-3.5-turbo (عبر shareGPT) ، وهو تقطير بطبيعته ، لذا فإن هذا الهجوم يشبه إلى حد كبير هجوم الصندوق الأبيض.
* الشكل 9: متوسط معدل نجاح الهجوم على تعليمات HB (السلوك الضار) ، وهو متوسط نتيجة يزيد عن 5 مرات. *
يعتبر ارتفاع الإحداثيات العشوائية الانحدار الذاتي (ARCA) الذي اقترحه جونز وآخرون (2023) مجموعة أوسع من مشاكل التحسين للعثور على أزواج المدخلات والمخرجات (x ، y) التي تتوافق مع نمط معين من السلوك ، مثل المدخلات غير السامة التي تبدأ ب "باراك أوباما" ولكنها تؤدي إلى مخرجات سامة. بالنظر إلى هدف التدقيق: φ: X×Y→R ، الذي يعين زوجا (الإدخال ، إكمال المخرجات) إلى درجة.
* الشكل 10: متوسط معدل نجاح خداع GPT-2 و GPT-J لإنتاج مخرجات سامة. الخط السميك: جميع مخرجات CivilComments ؛ الخط المنقط: 1،2،3 رمز الإخراج السام ل CivilComments. *
تصميم جيلبريك
كسر الحماية هو محاولة عدائية لخداع LLMs لإخراج محتوى ضار يجب تجنبه. كسر الحماية هو هجوم الصندوق الأسود ، لذلك تعتمد المجموعات المعجمية على الاستدلال والاستكشاف البشري. تقترح ورقة Wei et al. (2023) "كسر الحماية: كيف يفشل التدريب على سلامة LLM؟" وضعين للفشل لسلامة LLM ، والتي يمكن استخدامها لتوجيه تصميم هجمات كسر الحماية.
1. الأهداف المتنافسة: يحدث هذا عندما تتعارض قدرات النموذج (على سبيل المثال، "يجب أن تتبع الأوامر دائما") مع الأهداف الأمنية. تتضمن أمثلة هجمات كسر الحماية التي تستغل الأهداف المتنافسة ما يلي:
حقن البادئة: يتطلب أن يبدأ النموذج ببيان إقرار إيجابي.
قمع الرفض: تقديم تعليمات مفصلة للنموذج بعدم الاستجابة بتنسيق مرفوض.
حقن الأسلوب: يتطلب من النموذج عدم استخدام كلمات طويلة، بحيث لا يستطيع النموذج الكتابة بشكل احترافي لإعطاء إخلاء مسؤولية أو شرح سبب الرفض.
أخرى: لعب الأدوار مثل DAN (يمكنه فعل أي شيء الآن) ، AIM (دائما ذكي وعديم الضمير) ، إلخ.
**2. تعميم عدم التطابق **: يشير هذا إلى عدم قدرة التدريب على السلامة على التعميم على المناطق التي يكون فيها قادرا على ذلك. يحدث هذا عندما يكون الإدخال خارج توزيع بيانات التدريب الآمن للنموذج (OOD) ، ولكن ضمن نطاق مجموعته الواسعة المدربة مسبقا. ومن الأمثلة على ذلك:
ترميز خاص: استخدم ترميز Base64 لبناء مدخلات الخصومة.
تحويلات الأحرف: تشفير ROT13 ، نص المريخ أو بقايا الدماغ (استبدال الحروف بأرقام ورموز متشابهة بصريا) ، شفرة مورس
تحويلات الكلمات: خنزير لاتيني (استبدال الكلمات الحساسة بالمرادفات ، على سبيل المثال "سرقة" ب "سرقة") ، تقسيم الحمل (ما يسمى تهريب الرمز المميز ، الذي يقسم الكلمات الحساسة إلى سلاسل فرعية)
مستوى الارتباك: تتطلب الترجمة إلى لغات أخرى تعتيم النموذج بطريقة يمكن أن يفهمها
Wei et al. (2023) يجرب عددا كبيرا من طرق كسر الحماية ، بما في ذلك الاستراتيجيات التوافقية المبنية على المبادئ المذكورة أعلاه.
الجمع \ _3 يضيف قيودا على إنشاء محتوى الموقع والتنسيق.
* الشكل 11: أنواع حيل الجيلبريك ومعدل نجاحها في مهاجمة النموذج *
تبحث ورقة Greshake et al. (2023) "ليس ما اشتركت فيه: المساومة على تطبيقات LLM المتكاملة في العالم الحقيقي مع الحقن غير المباشر" في هجمات الحقن على مستوى عال. ويجادل بأنه حتى عندما لا يوفر الهجوم طريقة مفصلة ويوفر هدفا فقط ، فمن الممكن للنموذج تنفيذه تلقائيا. عندما يكون لدى النموذج حق الوصول إلى واجهات برمجة التطبيقات والأدوات الخارجية ، يمكن أن يؤدي الوصول إلى مزيد من المعلومات ، حتى معلومات الملكية ، إلى زيادة خطر هجمات التصيد الاحتيالي وهجمات التطفل.
** استراتيجية فريق RED بمشاركة بشرية **
اقترح والاس وآخرون (2019) جيلا عدائيا مشاركا في الإنسان في ورقة "خدعني إذا استطعت: جيل الإنسان في الحلقة من الأمثلة العدائية للإجابة على الأسئلة" ، بهدف بناء أدوات لتوجيه البشر لتحطيم النماذج.
لقد جربوا مجموعة بيانات QuizBowl QA وصمموا واجهة كتابة عدائية تسمح للبشر بكتابة أسئلة مشابهة لتلك الموجودة في برنامج الاختبار التلفزيوني Jeopardy واستخدامها لحث النموذج على إجراء تنبؤات خاطئة. اعتمادا على درجة الأهمية ، سيتم ترميز كل كلمة بالألوان (أي أن الاحتمال المتوقع للنموذج سيتغير عند إزالة الكلمة). يتم تقريب أهمية الكلمة من خلال تدرج النموذج بناء على تضمينات الكلمات.
* الشكل 12: واجهة الكتابة العدائية ، حيث يكون الجزء العلوي الأيسر هو التنبؤات الخمسة الأولى للنموذج المدرج ، والجزء الأيمن السفلي هو سؤال المستخدم ، حيث يتم ترميز أهمية الكلمة بالألوان. *
في إحدى التجارب ، كان على المدربين البشريين القيام به هو العثور على الحالات التي فشل فيها المصنف الآمن في تصنيف المحتوى العنيف. أنشأ Ziegler et al. (2022) أداة في ورقة "التدريب العدائي من أجل موثوقية عالية المخاطر" يمكن استخدامها لمساعدة الخصوم البشريين في العثور على حالة فشل المصنف والقضاء عليه بسرعة وكفاءة أكبر. تعد عمليات إعادة الكتابة بمساعدة الأدوات أسرع من عمليات إعادة الكتابة اليدوية الكاملة ، مما يقلل الوقت المطلوب لكل عينة من 20 دقيقة إلى 13 دقيقة. على وجه الدقة ، قدموا ميزتين لمساعدة الكتاب البشريين: عرض درجة الأهمية لكل رمز مميز ، واستبدال الرمز المميز ، والإدراج.
* الشكل 13: واجهة مستخدم مع أدوات لمساعدة البشر في هجمات الخصومة على المصنفات. ما يتعين على البشر فعله هو التحرير أو الإكمال لتقليل احتمالية أن يتنبأ النموذج بأن المدخلات عنيفة. *
يقترح Xu et al. (2021) "حوار الخصومة الروبوتية لوكلاء المحادثة الآمنين" حوار الخصومة بين الروبوت (BAD) ، وهو إطار يمكن أن يقود البشر إلى خداع النماذج لارتكاب الأخطاء (على سبيل المثال ، إخراج محتوى غير آمن). لقد جمعوا أكثر من 5000 مجموعة من المحادثات بين عارضات الأزياء وعمال التعهيد الجماعي. تألفت كل مجموعة من المحادثات من 14 جولة ، ثم سجلوا النموذج بناء على عدد جولات المحادثة غير الآمنة. انتهى بهم الأمر بمجموعة بيانات BAD من حوالي 2500 مجموعة من المحادثات ذات العلامات المسيئة.
تحتوي مجموعة بيانات الفريق الأحمر في Anthropic على ما يقرب من 40,000 هجوم عدائي تم جمعها من المحادثات بين أعضاء الفريق الأحمر البشري و LLMs. ووجدوا أنه كلما زاد حجم RLHF ، زادت صعوبة الهجوم. تستخدم النماذج الكبيرة التي أصدرتها OpenAI ، مثل GPT-4 و DALL-E 3 ، بشكل عام فرقا حمراء من الخبراء البشريين لإعداد السلامة.
عنوان مجموعة البيانات:
نموذج استراتيجية الفريق الأحمر
استراتيجية الفريق الأحمر البشري قوية ، ولكن من الصعب تنفيذها على نطاق واسع وقد تتطلب عددا كبيرا من المهنيين المدربين. تخيل الآن أنه يمكننا تعلم نموذج الفريق الأحمر ، الأحمر ، لمواجهة LLM المستهدف لتشغيله لإعطاء استجابة غير آمنة. بالنسبة لاستراتيجيات الفريق الأحمر القائمة على النموذج ، يتمثل التحدي الرئيسي في كيفية تحديد ما إذا كان الهجوم ناجحا أم لا ، وفقط من خلال معرفة ذلك يمكننا بناء إشارات تعلم مناسبة لتدريب نموذج الفريق الأحمر.
بافتراض أن لدينا بالفعل مصنفا عالي الجودة يمكنه معرفة ما إذا كان إخراج النموذج ضارا ، يمكننا استخدامه كمكافأة لتدريب نموذج الفريق الأحمر للحصول على بعض المدخلات التي تزيد من درجة المصنف على مخرجات النموذج المستهدف. دع r (x ، y) يكون أحد تصنيفات الفريق الأحمر التي يمكنها تحديد ما إذا كان الإخراج y ضارا بالنظر إلى إدخال الاختبار x. وفقا لورقة "نماذج لغة الفريق الأحمر مع نماذج اللغة" بواسطة Perez et al. (2022) ، فإن العثور على عينات هجوم الخصومة يتبع عملية بسيطة من ثلاث خطوات:
مدخلات اختبار عينة من فريق أحمر LLM x ~ p \ _red (.) ؛
توليد إخراج y لكل حالة اختبار x باستخدام الهدف LLM p (y | x) ؛
وفقا للمصنف r (x ، y) ، ابحث عن مجموعة فرعية من حالة الاختبار التي ستحصل على مخرجات ضارة.
لقد جربوا عدة طرق لأخذ عينات من نموذج الفريق الأحمر أو تدريب نموذج الفريق الأحمر بشكل أكبر لجعله أكثر كفاءة ، بما في ذلك توليد طلقة صفرية ، وتوليد عشوائي قليل الطلقات ، والتعلم الخاضع للإشراف ، والتعلم المعزز.
تصمم ورقة Casper et al. (2023) "استكشاف وإنشاء واستغلال: نماذج لغة الفريق الأحمر من الصفر" عملية فريق أحمر بمشاركة بشرية. يتمثل الاختلاف الرئيسي عن Perez et al. (2022) في أنه يحدد صراحة مرحلة أخذ عينات البيانات للنموذج المستهدف بحيث يمكن جمع الملصقات البشرية عليه لتدريب مصنف فريق أحمر خاص بالمهمة. يتكون من ثلاث مراحل: الاستكشاف والتأسيس والاستغلال ، كما هو موضح في الشكل أدناه.
* الشكل 15: عملية استراتيجية الفريق الأحمر مع نهج الاستكشاف والبناء والاستغلال المكون من ثلاث خطوات *
تعتمد ورقة Mehrabi et al. 2023 ، "FLIRT: Feedback Loop In-context Red Teaming" ، على تعلم السياق للفريق الأحمر LM p \ _red لمهاجمة نموذج إنشاء الصورة أو النص p وجعله ينتج محتوى غير آمن.
في كل تكرار مغازلة:
يولد الفريق الأحمر LM p \ _red خصومة x ~ p \ _red (. | أمثلة) ، حيث يتم تصميم عينات السياق الأولية من قبل البشر ؛
إنشاء نموذج p بناء على هذا قم بإنشاء صورة أو إخراج نص y ؛
استخدم آليات مثل المصنفات لتقييم المحتوى الذي تم إنشاؤه y لمعرفة ما إذا كان آمنا ؛
إذا تم اعتبار y غير آمن ، فاستخدم المشغل x لتحديث قالب السياق الخاص ب p \ _red بحيث يولد خصومة جديدة بناء على السياسة.
هناك العديد من الاستراتيجيات لكيفية تحديث قوالب سياق FLIRT: FIFO و LIFO و Scorering و Scorering-LIFO. انظر الورقة الأصلية للحصول على التفاصيل.
* الشكل 16: فعالية الهجوم (النسبة المئوية للجيل الذي أدى إلى نتيجة غير آمنة) لاستراتيجيات الهجوم المختلفة على نماذج الانتشار المختلفة. المعيار هو SFS (عينة الحد الأدنى العشوائية). القيم الموجودة بين قوسين هي نسب مئوية فريدة. *
**كيفية التعامل مع مشكلة مهاجمة نقاط السرج **
يقترح Madry et al. (2017) ، "نحو نماذج التعلم العميق المقاومة للهجمات العدائية" ، إطارا جيدا لمتانة الخصومة ، والتي تم تصميمها على أنها مشكلة نقطة السرج ، والتي تصبح مشكلة تحسين قوية. تم اقتراح إطار العمل للإدخال المستمر لمهام التصنيف ، لكنه يصف عملية التحسين المكونة من طبقتين بصيغ رياضية موجزة إلى حد ما ، لذلك يستحق المشاركة.
لنفكر في مهمة تصنيف بناء على توزيع بيانات يتكون من أزواج (عينات ، ملصقات) ، (x ، y) ∈ D ، والهدف من تدريب مصنف قوي هو مشكلة نقطة السرج:
حيث يشير S⊆R ^ d إلى مجموعة من الاضطرابات المسموح باستخدامها لأغراض عدائية ، مثل إذا أردنا أن تبدو النسخة العدائية من الصورة مشابهة للنسخة الأصلية.
يتكون هدفها من مشكلة تعظيم داخلية ومشكلة تصغير خارجية:
التعظيم الداخلي: ابحث عن نقاط البيانات العدائية الأكثر فعالية x + δ والتي يمكن أن تؤدي إلى خسائر كبيرة. تتلخص جميع طرق الهجوم العدائي في النهاية في كيفية تعظيم خسارة هذه العملية الداخلية.
التقليل الخارجي: ابحث عن أفضل مخطط معلمات نموذجي بحيث يمكن تقليل فقدان الهجوم الأكثر فعالية الذي وجدته عملية التعظيم الداخلي. تتمثل إحدى الطرق السهلة لتدريب نموذج قوي في استبدال كل نقطة بيانات بإصدارات الاضطراب الخاصة بها ، والتي يمكن أن تكون متغيرات عدائية متعددة لنقطة بيانات واحدة.
* الشكل 17: وجدوا أيضا أن المتانة في مواجهة الهجمات العدائية تتطلب قوة نموذج أكبر ، لأنها تعقد حدود القرار. ومن المثير للاهتمام ، في غياب زيادة البيانات ، تساعد النماذج الأكبر على تحسين متانة النموذج. *
** بعض الأعمال البحثية حول متانة LLM **
فيما يلي نظرة سريعة على بعض الأبحاث حول متانة LLMs.
وجدت ورقة Xie et al. 2023 ، "الدفاع عن ChatGPT ضد هجوم الهروب من السجن عبر التذكير الذاتي" ، طريقة بسيطة وبديهية لحماية النموذج من الهجمات العدائية: توجيه النموذج صراحة ليكون مسؤولا وليس لإنشاء محتوى ضار. هذا يقلل بشكل كبير من معدل نجاح هجمات الهروب من السجن ، ولكن له تأثير جانبي على جودة جيل النموذج ، لأن مثل هذه التعليمات يمكن أن تجعل النموذج متحفظا (على سبيل المثال ، سيئا للكتابة الإبداعية) أو تسيء تفسير التعليمات في بعض الحالات (على سبيل المثال ، في حالة التصنيف الآمن وغير الآمن).
لتقليل مخاطر الهجمات العدائية ، فإن الطريقة الأكثر شيوعا هي تدريب نموذج باستخدام عينات الهجوم هذه ، والتي تعرف باسم "تدريب الخصومة". يعتبر هذا أقوى دفاع ، لكنه يتطلب توازنا بين المتانة وأداء النموذج. Jain et al. 2023 اختبر تجريبيا اثنين من إعدادات التدريب العدائية ، وتم الإبلاغ عن النتائج في ورقة "الدفاعات الأساسية للهجمات العدائية ضد نماذج اللغة المتوافقة": (1) استخدام ضار واستخدام "أنا آسف. (2) لكل خطوة تدريبية ، قم بتشغيل خطوة تنازلية على استجابة الرفض وخطوة تصاعدية على استجابة الفريق الأحمر الضعيفة. في النهاية ، وجدوا أن الطريقة (2) كانت عديمة الفائدة لأن جودة النموذج كانت أقل بكثير ، وكان معدل نجاح الهجوم مجرد انخفاض بسيط.
غالبا ما تؤدي هجمات الصندوق الأبيض إلى مواجهات تبدو عديمة الجدوى وبالتالي يمكن اكتشافها عن طريق الارتباك. بالطبع ، من خلال تقليل الارتباك عن طريق التحسين الصريح ، يمكن لهجمات الصندوق الأبيض تجاوز طريقة الكشف هذه مباشرة ، مثل UAT-LM ، وهو نوع مختلف من UT. ومع ذلك ، يمكن أن يؤدي هذا أيضا إلى انخفاض في معدل نجاح الهجوم.
* الشكل 18: يمكن لمرشحات الارتباك منع الهجمات من [Zou et al. (2023)]. يشير تمرير PPL وتمرير نافذة PPL إلى المعدل الذي لا يتم فيه اكتشاف المرشحات الضارة ذات مرشحات تجاوز اللاحقة العدائية. كلما انخفض معدل النجاح ، كان المرشح أفضل. عنوان:*
يختبر Jain et al. 2023 أيضا طرقا للمعالجة المسبقة لإدخال النص بحيث يمكن إزالة التعديلات العدائية مع الحفاظ على المعنى الدلالي.
تفسير المعنى: استخدم LLMs لتفسير معنى نص الإدخال ، والذي قد يكون له تأثير صغير على أداء مهمة المصب.
إعادة التكوكن: تقسيم الرموز وتمثيلها برموز أصغر متعددة ، مثل BPE-dropout (إسقاط نسبة معينة من الرموز بشكل عشوائي). الافتراض باستخدام هذا النهج هو أن الخصومة من المرجح أن تستفيد من مجموعة محددة من الرموز العدائية. هذا يساعد في تقليل معدل نجاح الهجوم ، لكنه محدود ، مثل من أكثر من 90٪ إلى 40٪.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قام الشخص المسؤول عن نظام أمان OpenAI بتمشيط المقال الطويل: الهجوم العدائي والدفاع عن النماذج الكبيرة
المصدر الأصلي: قلب الآلة
مع إصدار ChatGPT ، تتسارع تطبيقات نماذج اللغة الكبيرة على نطاق واسع. استثمر فريق أنظمة الأمان في OpenAI موارد كبيرة في البحث عن كيفية بناء سلوكيات الأمان الافتراضية للنماذج أثناء المحاذاة. ومع ذلك ، لا يزال من الممكن لهجوم عدائي أو كسر حماية أن يجعل إخراج النموذج شيئا لا نتوقع رؤيته.
في الوقت الحاضر ، يركز الكثير من الأبحاث حول الهجمات العدائية على الصور ، أي في المساحات عالية الأبعاد المستمرة. بالنسبة للبيانات المنفصلة مثل النص ، من المقبول عموما أن الهجوم سيكون أكثر صعوبة بسبب نقص إشارات التدرج. كتبت ليليان وينغ سابقا مقالا حول هذا الموضوع ، توليد النص القابل للتحكم. ببساطة: مهاجمة LLM هو التحكم بشكل أساسي في المحتوى (غير الآمن) لعنصر فئة معين يخرجه النموذج.
عنوان المقال:
فرع آخر من الأبحاث التي تهاجم LLMs هو استخراج البيانات المدربة مسبقا أو المعرفة الخاصة أو مهاجمة عملية التدريب النموذجية عن طريق تسميم البيانات. لكن هذا ليس موضوع هذا المقال.
نموذج تهديد المعرفة الأساسية
الهجوم العدائي هو مدخل يخدع النموذج لإخراج شيء لا نتوقعه. في حين أن الكثير من الأبحاث السابقة ركزت على مهام التصنيف ، فقد بدأ العمل الأحدث في التركيز بشكل أكبر على مخرجات النماذج التوليدية. تتناول هذه المقالة نماذج اللغة الكبيرة وتفترض أن الهجوم يحدث فقط في مرحلة الاستدلال ، مما يعني أن أوزان النموذج ثابتة.
جنس
في الماضي ، كان مجتمع البحث أكثر اهتماما بالهجمات العدائية على المصنفات ، والعديد منها في مجال الصور. يمكن أيضا استخدام LLMs للتصنيف. بالنظر إلى إدخال x ومصنف f (.) ، نريد العثور على نسخة خصومية دقيقة من الإدخال x \ _adv بحيث f (x) ≠f (x \ _adv).
توليد النص
بالنظر إلى الإدخال x والنموذج التوليدي p (.) ، يمكن للنموذج إخراج عينة y ~ p (.|𝐱)。 الهجوم العدائي هنا هو العثور على p (x) بحيث ينتهك y سلوكيات الأمان المضمنة في النموذج ، مثل إخراج محتوى غير آمن حول مواضيع غير قانونية أو تسريب معلومات خاصة أو بيانات تدريب النموذج. ليس من السهل الحكم على نجاح الهجوم لمهمة بناء ، الأمر الذي يتطلب تصنيفا فائق الجودة لتحديد ما إذا كان y آمنا أو يتطلب تدقيقا بشريا.
الصندوق الأبيض مقابل الصندوق الأسود
تفترض هجمات المربع الأبيض أن المهاجم لديه حق الوصول الكامل إلى أوزان النموذج والبنية ومهام سير عمل التدريب، بحيث يمكن للمهاجم الحصول على إشارات التدرج. نحن لا نفترض أن المهاجم سيتمكن من الوصول إلى جميع بيانات التدريب. هذا ينطبق فقط على نموذج المصدر المفتوح. تفترض هجمات الصندوق الأسود أن المهاجم يمكنه فقط الوصول إلى الخدمات من نوع واجهة برمجة التطبيقات - يمكن للمهاجم توفير إدخال x والحصول على عينة y من التعليقات دون معرفة المزيد عن النموذج.
أنواع الهجمات العدائية
هناك عدد من الطرق المختلفة لمساعدة المهاجم في العثور على مدخلات عدائية يمكنها خداع LLMs لإخراج محتوى غير آمن. فيما يلي خمس طرق للقيام بذلك.
بالنظر إلى جزء من إدخال النص الذي يحتوي على سلسلة من الرموز المميزة ، يمكننا استخدام عملية رمز مميز بسيطة (مثل استبدالها بالمرادفات) لخداع النموذج لإجراء تنبؤ خاطئ. الهجمات القائمة على الرمز المميز هي هجمات الصندوق الأسود. في إطار عمل Python ، موريس وآخرون ورقة 2020 "TextAttack: إطار عمل للهجمات العدائية ، وزيادة البيانات ، والتدريب العدائي في البرمجة اللغوية العصبية" ينفذ عددا من طرق هجوم التلاعب بالكلمات والرموز المميزة التي يمكن استخدامها لإنشاء عينات عدائية لنماذج البرمجة اللغوية العصبية. الكثير من العمل البحثي في هذا المجال تجارب مع التصنيف والتنبؤ بالتبعية.
على سبيل المثال ، تعتمد دراسة Ribeiro et al (2018) "قواعد الخصومة المكافئة لغويا لتصحيح نماذج البرمجة اللغوية العصبية" على "قواعد خصومة التكافؤ الدلالي (SEAR)" المقترحة بشكل مصطنع ، والتي يمكن أن تمنع النموذج من توليد الإجابة الصحيحة بأقل عدد ممكن من عمليات الرمز المميز. على سبيل المثال ، تتضمن القواعد استبدال ماذا مع الذي وكان مع هو. بالإضافة إلى ذلك ، هناك طرق أخرى اقترحها باحثون آخرون ، مثل استبدال الكلمات الرئيسية واستبدال المرادفات.
** الهجمات القائمة على التدرج **
في حالة هجوم الصندوق الأبيض ، يمكن للمهاجم الحصول على جميع معلمات النموذج والبنى. نتيجة لذلك ، يمكن للمهاجمين الاعتماد على النسب المتدرج لتعلم نواقل الهجوم الأكثر فعالية برمجيا. تعمل الهجمات المستندة إلى التدرج فقط في إعدادات المربع الأبيض ، مثل LLMs مفتوحة المصدر.
تستخدم الهجمات العدائية القائمة على التدرج ضد محولات النص التي اقترحها Guo et al. (2021) تقنية التقريب Gumbel-Softmax لتحسين قابلية التمايز بين الخسائر العدائية ، كما أنها تستخدم BERTScore والحيرة لتعزيز الإدراك والطلاقة.
ومع ذلك ، فإن خدعة Gumbel-softmax غير قابلة للتطوير لإزالة الرمز المميز أو إضافته ، ولكنها محدودة باستبدال الرمز المميز.
يعامل Ebrahimi et al. (2018) في ورقة "HotFlip: أمثلة خصومة الصندوق الأبيض لتصنيف النصوص" عمليات النص كمدخلات في فضاء متجه ، ويقيس المشتقات المفقودة على هذه المتجهات. يمكن تمديد HotFlip لإزالة الرمز المميز أو إضافته.
يقترح Wallace et al. (2019) ورقة "مشغلات الخصومة العالمية لمهاجمة وتحليل البرمجة اللغوية العصبية" طريقة لإجراء بحث موجه بالتدرج على رمز مميز للعثور على تسلسل قصير يحفز النموذج على إخراج تنبؤ محدد ، وهو ما يسمى مشغلات الخصومة العالمية (UAT ، الزناد العدائي العالمي). UAT هو محايد الإدخال ، مما يعني أنه يمكن توصيل هذه المشغلات كبادئة (أو لاحقة) بأي إدخال من مجموعة البيانات.
شين وآخرون ، 2020 تلقائي: استنباط المعرفة من نماذج اللغة باستخدام Automatically Generated s يستخدم نفس استراتيجية البحث القائمة على التدرج للعثور على القوالب الأكثر فعالية للمهام المتنوعة.
يمكن تحسين طريقة البحث عن الرمز المميز أعلاه باستخدام بحث الحزمة. عند البحث عن تضمين الرمز المميز الأمثل ، يمكنك اختيار مرشحي top-k بدلا من مرشح واحد ، والبحث من اليسار إلى اليمين في دفعة البيانات الحالية ، وتسجيل كل حزمة بناء على L \ _adv.
يجب تصميم فقدان UAT L \ _adv للمهمة المحددة. يعتمد التصنيف أو فهم القراءة على الإنتروبيا المتقاطعة.
لماذا يعمل UAT؟ إنه سؤال مثير للاهتمام. نظرا لأن UAT محايد للمدخلات ويمكن نقله بين النماذج ذات التضمين ومخططات الترميز والبنى المختلفة ، فقد يكونون قادرين على الاستفادة الفعالة من التحيز في بيانات التدريب المضمنة بالفعل في السلوك العالمي للنموذج.
هناك جانب سلبي لاستخدام هجمات UAT: من السهل اكتشافها. والسبب في ذلك هو أن المحفزات المستفادة غالبا ما تكون بلا معنى. Mehrabi et al. (2022) فحص نوعين مختلفين من UAT في ورقة عوامل المحادثة القوية ضد مشغلات السمية غير المحسوسة ، والتي تجعل المشغلات المكتسبة غير محسوسة في سياق المحادثة متعددة الجولات. الهدف هو إنشاء رسالة مسيئة تؤدي بشكل فعال إلى استجابة سامة في محادثة معينة ، مع ضمان أن يكون الهجوم بطلاقة ومتماسكة ومتسقة طوال المحادثة.
这两种变体分别是 UAT-LM(مشغل الخصومة العالمي مع فقدان نموذج اللغة)和 UTSC(Unigram Trigger with Selection Criteria)。
أداء UAT-LM و UTSC-1 على قدم المساواة مع معايير UAT ، لكن عبارات هجوم UAT مربكة بشكل مدهش وأعلى بكثير من كل من UAT-LM و UTSC-1. الارتباك الشديد يجعل الهجمات أسهل في اكتشافها وتخفيفها. وفقا للتقييمات البشرية ، تنتج هجمات UTSC-1 نتائج أكثر اتساقا وانسيابية وذات صلة من طرق الهجوم الأخرى.
تبحث ورقة Zou et al. (2023) "عوامل محادثة قوية ضد مشغلات السمية غير المحسوسة" أيضا في حالة توصيل رمز تشغيل عدائي عام كلاحقة لطلب إدخال. نظروا على وجه التحديد في الطلبات الخبيثة إلى LLMs - والتي يجب أن يرفض النموذج الإجابة عليها. في الواقع ، يعد رفض فئات المحتوى غير المسموح بها ، مثل الاقتراحات الجنائية ، إجراء أمنيا مهما مدمجا في GPT-4. الهدف العدائي هنا هو حث LLM على إخراج استجابة إيجابية حتى عندما يجب أن ترفض الإجابة. هذا يعني أنه عند تلقي طلب ضار ، يستجيب النموذج على النحو التالي ، "بالطبع ، تحتاج إلى القيام بذلك ..." ، ويتم أيضا تكوين الاستجابة الإيجابية المتوقعة لتكرار بعض المستخدمين ، وذلك لتجنب مجرد تغيير لاحقة الموضوع لتحسين استجابة "بالطبع". دالة الخسارة بسيطة مثل NLL (احتمال السجل السلبي) لاستجابة هدف الإخراج.
لقد جربوا على نموذجين مختلفين ، Vicuna-7b و Vicuna-13b ، باستخدام بحث قائم على تدرج الإحداثيات الجشع (GCG) للعثور على مرشح بشراهة حتى يتمكن المرشح من تقليل الخسائر عبر جميع بدائل الرمز المميز الفردية الممكنة.
على الرغم من أن تسلسل هجماتهم تم تدريبه بالكامل على نماذج مفتوحة المصدر ، إلا أنها كانت محمولة بشكل مدهش على النماذج التجارية الأخرى ، مما يشير إلى أن هجمات الصندوق الأبيض على النماذج مفتوحة المصدر يمكن أن تكون فعالة أيضا ضد النماذج المسجلة الملكية ، خاصة عندما يكون هناك تداخل في بيانات التدريب منخفضة المستوى. لاحظ أن تدريب Vicuna يستخدم البيانات التي تم جمعها من GPT-3.5-turbo (عبر shareGPT) ، وهو تقطير بطبيعته ، لذا فإن هذا الهجوم يشبه إلى حد كبير هجوم الصندوق الأبيض.
يعتبر ارتفاع الإحداثيات العشوائية الانحدار الذاتي (ARCA) الذي اقترحه جونز وآخرون (2023) مجموعة أوسع من مشاكل التحسين للعثور على أزواج المدخلات والمخرجات (x ، y) التي تتوافق مع نمط معين من السلوك ، مثل المدخلات غير السامة التي تبدأ ب "باراك أوباما" ولكنها تؤدي إلى مخرجات سامة. بالنظر إلى هدف التدقيق: φ: X×Y→R ، الذي يعين زوجا (الإدخال ، إكمال المخرجات) إلى درجة.
تصميم جيلبريك
كسر الحماية هو محاولة عدائية لخداع LLMs لإخراج محتوى ضار يجب تجنبه. كسر الحماية هو هجوم الصندوق الأسود ، لذلك تعتمد المجموعات المعجمية على الاستدلال والاستكشاف البشري. تقترح ورقة Wei et al. (2023) "كسر الحماية: كيف يفشل التدريب على سلامة LLM؟" وضعين للفشل لسلامة LLM ، والتي يمكن استخدامها لتوجيه تصميم هجمات كسر الحماية.
1. الأهداف المتنافسة: يحدث هذا عندما تتعارض قدرات النموذج (على سبيل المثال، "يجب أن تتبع الأوامر دائما") مع الأهداف الأمنية. تتضمن أمثلة هجمات كسر الحماية التي تستغل الأهداف المتنافسة ما يلي:
**2. تعميم عدم التطابق **: يشير هذا إلى عدم قدرة التدريب على السلامة على التعميم على المناطق التي يكون فيها قادرا على ذلك. يحدث هذا عندما يكون الإدخال خارج توزيع بيانات التدريب الآمن للنموذج (OOD) ، ولكن ضمن نطاق مجموعته الواسعة المدربة مسبقا. ومن الأمثلة على ذلك:
Wei et al. (2023) يجرب عددا كبيرا من طرق كسر الحماية ، بما في ذلك الاستراتيجيات التوافقية المبنية على المبادئ المذكورة أعلاه.
تبحث ورقة Greshake et al. (2023) "ليس ما اشتركت فيه: المساومة على تطبيقات LLM المتكاملة في العالم الحقيقي مع الحقن غير المباشر" في هجمات الحقن على مستوى عال. ويجادل بأنه حتى عندما لا يوفر الهجوم طريقة مفصلة ويوفر هدفا فقط ، فمن الممكن للنموذج تنفيذه تلقائيا. عندما يكون لدى النموذج حق الوصول إلى واجهات برمجة التطبيقات والأدوات الخارجية ، يمكن أن يؤدي الوصول إلى مزيد من المعلومات ، حتى معلومات الملكية ، إلى زيادة خطر هجمات التصيد الاحتيالي وهجمات التطفل.
** استراتيجية فريق RED بمشاركة بشرية **
اقترح والاس وآخرون (2019) جيلا عدائيا مشاركا في الإنسان في ورقة "خدعني إذا استطعت: جيل الإنسان في الحلقة من الأمثلة العدائية للإجابة على الأسئلة" ، بهدف بناء أدوات لتوجيه البشر لتحطيم النماذج.
لقد جربوا مجموعة بيانات QuizBowl QA وصمموا واجهة كتابة عدائية تسمح للبشر بكتابة أسئلة مشابهة لتلك الموجودة في برنامج الاختبار التلفزيوني Jeopardy واستخدامها لحث النموذج على إجراء تنبؤات خاطئة. اعتمادا على درجة الأهمية ، سيتم ترميز كل كلمة بالألوان (أي أن الاحتمال المتوقع للنموذج سيتغير عند إزالة الكلمة). يتم تقريب أهمية الكلمة من خلال تدرج النموذج بناء على تضمينات الكلمات.
في إحدى التجارب ، كان على المدربين البشريين القيام به هو العثور على الحالات التي فشل فيها المصنف الآمن في تصنيف المحتوى العنيف. أنشأ Ziegler et al. (2022) أداة في ورقة "التدريب العدائي من أجل موثوقية عالية المخاطر" يمكن استخدامها لمساعدة الخصوم البشريين في العثور على حالة فشل المصنف والقضاء عليه بسرعة وكفاءة أكبر. تعد عمليات إعادة الكتابة بمساعدة الأدوات أسرع من عمليات إعادة الكتابة اليدوية الكاملة ، مما يقلل الوقت المطلوب لكل عينة من 20 دقيقة إلى 13 دقيقة. على وجه الدقة ، قدموا ميزتين لمساعدة الكتاب البشريين: عرض درجة الأهمية لكل رمز مميز ، واستبدال الرمز المميز ، والإدراج.
يقترح Xu et al. (2021) "حوار الخصومة الروبوتية لوكلاء المحادثة الآمنين" حوار الخصومة بين الروبوت (BAD) ، وهو إطار يمكن أن يقود البشر إلى خداع النماذج لارتكاب الأخطاء (على سبيل المثال ، إخراج محتوى غير آمن). لقد جمعوا أكثر من 5000 مجموعة من المحادثات بين عارضات الأزياء وعمال التعهيد الجماعي. تألفت كل مجموعة من المحادثات من 14 جولة ، ثم سجلوا النموذج بناء على عدد جولات المحادثة غير الآمنة. انتهى بهم الأمر بمجموعة بيانات BAD من حوالي 2500 مجموعة من المحادثات ذات العلامات المسيئة.
تحتوي مجموعة بيانات الفريق الأحمر في Anthropic على ما يقرب من 40,000 هجوم عدائي تم جمعها من المحادثات بين أعضاء الفريق الأحمر البشري و LLMs. ووجدوا أنه كلما زاد حجم RLHF ، زادت صعوبة الهجوم. تستخدم النماذج الكبيرة التي أصدرتها OpenAI ، مثل GPT-4 و DALL-E 3 ، بشكل عام فرقا حمراء من الخبراء البشريين لإعداد السلامة.
عنوان مجموعة البيانات:
نموذج استراتيجية الفريق الأحمر
استراتيجية الفريق الأحمر البشري قوية ، ولكن من الصعب تنفيذها على نطاق واسع وقد تتطلب عددا كبيرا من المهنيين المدربين. تخيل الآن أنه يمكننا تعلم نموذج الفريق الأحمر ، الأحمر ، لمواجهة LLM المستهدف لتشغيله لإعطاء استجابة غير آمنة. بالنسبة لاستراتيجيات الفريق الأحمر القائمة على النموذج ، يتمثل التحدي الرئيسي في كيفية تحديد ما إذا كان الهجوم ناجحا أم لا ، وفقط من خلال معرفة ذلك يمكننا بناء إشارات تعلم مناسبة لتدريب نموذج الفريق الأحمر.
بافتراض أن لدينا بالفعل مصنفا عالي الجودة يمكنه معرفة ما إذا كان إخراج النموذج ضارا ، يمكننا استخدامه كمكافأة لتدريب نموذج الفريق الأحمر للحصول على بعض المدخلات التي تزيد من درجة المصنف على مخرجات النموذج المستهدف. دع r (x ، y) يكون أحد تصنيفات الفريق الأحمر التي يمكنها تحديد ما إذا كان الإخراج y ضارا بالنظر إلى إدخال الاختبار x. وفقا لورقة "نماذج لغة الفريق الأحمر مع نماذج اللغة" بواسطة Perez et al. (2022) ، فإن العثور على عينات هجوم الخصومة يتبع عملية بسيطة من ثلاث خطوات:
لقد جربوا عدة طرق لأخذ عينات من نموذج الفريق الأحمر أو تدريب نموذج الفريق الأحمر بشكل أكبر لجعله أكثر كفاءة ، بما في ذلك توليد طلقة صفرية ، وتوليد عشوائي قليل الطلقات ، والتعلم الخاضع للإشراف ، والتعلم المعزز.
تصمم ورقة Casper et al. (2023) "استكشاف وإنشاء واستغلال: نماذج لغة الفريق الأحمر من الصفر" عملية فريق أحمر بمشاركة بشرية. يتمثل الاختلاف الرئيسي عن Perez et al. (2022) في أنه يحدد صراحة مرحلة أخذ عينات البيانات للنموذج المستهدف بحيث يمكن جمع الملصقات البشرية عليه لتدريب مصنف فريق أحمر خاص بالمهمة. يتكون من ثلاث مراحل: الاستكشاف والتأسيس والاستغلال ، كما هو موضح في الشكل أدناه.
تعتمد ورقة Mehrabi et al. 2023 ، "FLIRT: Feedback Loop In-context Red Teaming" ، على تعلم السياق للفريق الأحمر LM p \ _red لمهاجمة نموذج إنشاء الصورة أو النص p وجعله ينتج محتوى غير آمن.
في كل تكرار مغازلة:
هناك العديد من الاستراتيجيات لكيفية تحديث قوالب سياق FLIRT: FIFO و LIFO و Scorering و Scorering-LIFO. انظر الورقة الأصلية للحصول على التفاصيل.
**كيفية التعامل مع مشكلة مهاجمة نقاط السرج **
يقترح Madry et al. (2017) ، "نحو نماذج التعلم العميق المقاومة للهجمات العدائية" ، إطارا جيدا لمتانة الخصومة ، والتي تم تصميمها على أنها مشكلة نقطة السرج ، والتي تصبح مشكلة تحسين قوية. تم اقتراح إطار العمل للإدخال المستمر لمهام التصنيف ، لكنه يصف عملية التحسين المكونة من طبقتين بصيغ رياضية موجزة إلى حد ما ، لذلك يستحق المشاركة.
لنفكر في مهمة تصنيف بناء على توزيع بيانات يتكون من أزواج (عينات ، ملصقات) ، (x ، y) ∈ D ، والهدف من تدريب مصنف قوي هو مشكلة نقطة السرج:
يتكون هدفها من مشكلة تعظيم داخلية ومشكلة تصغير خارجية:
** بعض الأعمال البحثية حول متانة LLM **
فيما يلي نظرة سريعة على بعض الأبحاث حول متانة LLMs.
وجدت ورقة Xie et al. 2023 ، "الدفاع عن ChatGPT ضد هجوم الهروب من السجن عبر التذكير الذاتي" ، طريقة بسيطة وبديهية لحماية النموذج من الهجمات العدائية: توجيه النموذج صراحة ليكون مسؤولا وليس لإنشاء محتوى ضار. هذا يقلل بشكل كبير من معدل نجاح هجمات الهروب من السجن ، ولكن له تأثير جانبي على جودة جيل النموذج ، لأن مثل هذه التعليمات يمكن أن تجعل النموذج متحفظا (على سبيل المثال ، سيئا للكتابة الإبداعية) أو تسيء تفسير التعليمات في بعض الحالات (على سبيل المثال ، في حالة التصنيف الآمن وغير الآمن).
لتقليل مخاطر الهجمات العدائية ، فإن الطريقة الأكثر شيوعا هي تدريب نموذج باستخدام عينات الهجوم هذه ، والتي تعرف باسم "تدريب الخصومة". يعتبر هذا أقوى دفاع ، لكنه يتطلب توازنا بين المتانة وأداء النموذج. Jain et al. 2023 اختبر تجريبيا اثنين من إعدادات التدريب العدائية ، وتم الإبلاغ عن النتائج في ورقة "الدفاعات الأساسية للهجمات العدائية ضد نماذج اللغة المتوافقة": (1) استخدام ضار واستخدام "أنا آسف. (2) لكل خطوة تدريبية ، قم بتشغيل خطوة تنازلية على استجابة الرفض وخطوة تصاعدية على استجابة الفريق الأحمر الضعيفة. في النهاية ، وجدوا أن الطريقة (2) كانت عديمة الفائدة لأن جودة النموذج كانت أقل بكثير ، وكان معدل نجاح الهجوم مجرد انخفاض بسيط.
غالبا ما تؤدي هجمات الصندوق الأبيض إلى مواجهات تبدو عديمة الجدوى وبالتالي يمكن اكتشافها عن طريق الارتباك. بالطبع ، من خلال تقليل الارتباك عن طريق التحسين الصريح ، يمكن لهجمات الصندوق الأبيض تجاوز طريقة الكشف هذه مباشرة ، مثل UAT-LM ، وهو نوع مختلف من UT. ومع ذلك ، يمكن أن يؤدي هذا أيضا إلى انخفاض في معدل نجاح الهجوم.
يختبر Jain et al. 2023 أيضا طرقا للمعالجة المسبقة لإدخال النص بحيث يمكن إزالة التعديلات العدائية مع الحفاظ على المعنى الدلالي.