OpenAI'nin güvenlik sisteminden sorumlu kişi uzun makaleyi taradı: büyük modellerin düşmanca saldırısı ve savunması

LLM'ler güçlüdür ve art niyetli biri bunları kötü şeyler yapmak için kullanırsa, öngörülemeyen ve ciddi sonuçlar doğurabilir. Çoğu ticari ve açık kaynaklı LLM'nin yerleşik güvenliği olsa da, çeşitli düşmanca saldırılara karşı koruma sağlamaları gerekmez. Son zamanlarda, OpenAI Güvenlik Sistemleri ekibinin başkanı Lilian Weng, LLM'lere yönelik düşmanca saldırı türlerini sıralayan ve bazı savunma yöntemlerini kısaca tanıtan "LLM'lere Yönelik Düşmanca Saldırılar" adlı bir blog yazısı yayınladı.

Orijinal kaynak: Makinenin Kalbi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

ChatGPT'nin piyasaya sürülmesiyle birlikte, büyük dil modeli uygulamaları büyük ölçekte hızlanıyor. OpenAI'nin güvenlik sistemleri ekibi, hizalama sırasında modeller için varsayılan güvenlik davranışlarının nasıl oluşturulacağını araştırmak için önemli kaynaklara yatırım yaptı. Bununla birlikte, düşmanca bir saldırının veya jailbreak'in model çıktısını görmeyi beklemediğimiz bir şey haline getirmesi hala mümkündür.

Şu anda, düşmanca saldırılarla ilgili araştırmaların çoğu, görüntülere, yani sürekli yüksek boyutlu alanlara odaklanmaktadır. Metin gibi ayrık veriler için, gradyan sinyallerinin olmaması nedeniyle saldırının çok daha zor olacağı genel olarak kabul edilir. Lilian Weng daha önce bu konuda bir makale yazmıştı, Kontrol Edilebilir Metin Üretimi. Basitçe söylemek gerekirse: bir LLM'ye saldırmak, esasen modelin çıkardığı belirli bir sınıf öğesinin (güvensiz) içeriğini kontrol etmektir.

Makale adresi:

LLM'lere saldıran bir başka araştırma dalı, önceden eğitilmiş verileri, özel bilgileri çıkarmak veya verileri zehirleyerek model eğitim sürecine saldırmaktır. Ama bu yazının konusu bu değil.

Temel Bilgi Tehdit Modeli

Düşmanca saldırı, modeli beklemediğimiz bir şey çıkarması için kandıran bir girdidir. Daha önceki araştırmaların çoğu sınıflandırma görevlerine odaklanırken, daha yeni çalışmalar daha çok üretken modellerin çıktılarına odaklanmaya başlamıştır. Bu makale büyük dil modelleri hakkındadır ve saldırının yalnızca çıkarım aşamasında gerçekleştiğini varsayar, bu da model ağırlıklarının sabit olduğu anlamına gelir.

Şekil 1: LLM Uygulamaları için Tehdit Profili

Ayırmak

Geçmişte, araştırma topluluğu, sınıflandırıcılara ve görüntü alanındaki birçok kişiye yönelik düşmanca saldırılarla daha fazla ilgilenmiştir. LLM'ler sınıflandırma için de kullanılabilir. Bir x girdisi ve bir f(.) sınıflandırıcısı verildiğinde, , x_adv girdisinin f(x) ≠f(x_adv) olacak şekilde nüanslı bir çekişmeli versiyonunu bulmak istiyoruz.

Metin Oluşturma

Bir x girdisi ve bir üretken model verildiğinde, p(.) , model örnek bir y~p(.|𝐱)。 Buradaki düşmanca saldırı, y'nin modelin yasa dışı konularda güvenli olmayan içerik çıkışı, özel bilgilerin sızdırılması veya model eğitim verileri gibi yerleşik güvenlik davranışlarını ihlal etmesi için bir p(x) bulmaktır. Y'nin güvenli olup olmadığını veya insan incelemesi gerektirip gerektirmediğini belirlemek için ultra yüksek kaliteli bir sınıflandırıcı gerektiren bir derleme görevi için bir saldırının başarısını değerlendirmek kolay değildir.

Beyaz Kutu ve Kara Kutu

Beyaz kutu saldırıları, saldırganın gradyan sinyalleri alabilmesi için model ağırlıklarına, mimariye ve eğitim iş akışlarına tam erişime sahip olduğunu varsayar. Bir saldırganın tüm eğitim verilerine erişebileceğini varsaymıyoruz. Bu yalnızca açık kaynak modeli için geçerlidir. Kara kutu saldırıları, bir saldırganın yalnızca API türü hizmetlere erişebileceğini varsayar — bir saldırgan, model hakkında daha fazla bilgi sahibi olmadan x girdisi sağlayabilir ve geri bildirimin y örneğini alabilir.

Düşmanca Saldırı Türleri

Bir saldırganın, LLM'leri güvenli olmayan içerik çıktısı almaları için kandırabilecek çekişmeli girdileri bulmasına yardımcı olmanın birkaç farklı yolu vardır. İşte bunu yapmanın beş yolu.

token 操作

Bir dizi belirteç içeren bir metin girdisi verildiğinde, modeli yanlış bir tahmin yapması için kandırmak için basit bir belirteç işlemi (örneğin, eşanlamlılarla değiştirmek) kullanabiliriz. Token tabanlı saldırılar kara kutu saldırılarıdır. Python çerçevesinde, Morris ve ark. 2020'nin "TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP" başlıklı makalesi, NLP modelleri için çekişmeli örnekler oluşturmak için kullanılabilecek bir dizi kelime ve belirteç manipülasyon saldırı yöntemi uygular. Bu alandaki araştırma çalışmalarının çoğu, sınıflandırma ve zorunluluk tahmini ile ilgili deneyler yapar.

Örneğin, Ribeiro ve arkadaşlarının (2018) "NLP modellerinde Hata Ayıklama için Anlamsal Olarak Eşdeğer Çekişmeli Kurallar" çalışması, modelin mümkün olduğunca az belirteç işlemiyle doğru cevabı üretmesini engelleyebilen yapay olarak önerilen "Anlamsal Eşdeğerlik Çekişmeli Kurallarına (SEAR)" dayanmaktadır. Örneğin, kurallar Ney'i Hangisi ile değiştirmeyi ve ile oldu. Ek olarak, anahtar kelimeleri değiştirmek ve eş anlamlıları değiştirmek gibi diğer araştırmacılar tarafından önerilen başka yöntemler de vardır.

Gradyan tabanlı saldırılar

Beyaz kutu saldırısı durumunda, saldırgan tüm model parametrelerini ve mimarilerini elde edebilir. Sonuç olarak, saldırganlar en etkili saldırı vektörlerini programlı olarak öğrenmek için gradyan inişine güvenebilir. Gradyan tabanlı saldırılar yalnızca açık kaynaklı LLM'ler gibi beyaz kutu ayarlarında çalışır.

Guo ve ark. (2021), çekişmeli kayıpların ayırt edilebilirliğini optimize etmek için Gumbel-Softmax yaklaşım tekniğini kullanır ve ayrıca algılanabilirliği ve akıcılığı artırmak için BERTScore ve şaşkınlığı kullanır.

Bununla birlikte, Gumbel-softmax hilesi, belirteç kaldırma veya ekleme için ölçeklenebilir değildir, ancak belirteç değiştirme ile sınırlıdır.

Ebrahimi vd. (2018) "HotFlip: White-Box Adversarial Examples for Text Classification" başlıklı makalesinde, metin işlemlerini bir vektör uzayında girdi olarak ele alır ve bu vektörlerde kaybolan türevleri ölçer. HotFlip, belirteç kaldırma veya ekleme için genişletilebilir.

Wallace ve ark. (2019) "NLP'ye Saldırmak ve Analiz Etmek için Evrensel Çekişmeli Tetikleyiciler" makalesi, modeli Evrensel Çekişmeli Tetikleyiciler olarak adlandırılan belirli bir tahmin çıkarmaya teşvik eden kısa bir dizi bulmak için bir belirteç üzerinde gradyan kılavuzlu bir arama gerçekleştirmek için bir yöntem önermektedir (UAT, Evrensel Çekişmeli Tetikleyici). UAT girişten bağımsızdır, yani bu tetikleyiciler veri kümesindeki herhangi bir girişe ön ek (veya sonek) olarak bağlanabilir.

Shin ve diğerleri, 2020'nin Otomatik: Otomatik Olarak Oluşturulan S ile Dil Modellerinden Bilgi Elde Etme kitabı, çeşitli görevler için en etkili şablonları bulmak için aynı gradyan tabanlı arama stratejisini kullanır.

Yukarıdaki belirteç arama yöntemi, ışın araması ile geliştirilebilir. En uygun belirteç yerleştirmeyi ararken, tek bir aday yerine ilk k adayları seçebilir, mevcut veri grubunda soldan sağa arama yapabilir ve her bir ışını L_adv'ye göre puanlayabilirsiniz.

Şekil 4: UAT'nin nasıl çalıştığına dair şema

UAT L_adv'nin kaybı, belirli bir görev için tasarlanmalıdır. Sınıflandırma veya okuduğunu anlama, çapraz entropiye dayanır.

Şekil 5: Farklı Dil Görevleri Türleri için UAT Örnekleri

UAT neden işe yarıyor? Bu ilginç bir soru. UAT girişten bağımsız olduğundan ve farklı ekleme, belirteç oluşturma şemaları ve mimarilere sahip modeller arasında aktarılabildiğinden, modelin genel davranışında zaten yerleşik olan eğitim verilerindeki önyargıyı etkili bir şekilde kullanabilirler.

UAT saldırılarını kullanmanın bir dezavantajı vardır: tespit edilmesi kolaydır. Bunun nedeni, öğrenilen tetikleyicilerin çoğu zaman anlamsız olmasıdır. Mehrabi ve ark. (2022), öğrenilen tetikleyicileri çok yönlü konuşma bağlamında algılanamaz hale getiren Algılanamayan Toksisite Tetikleyicilerine Karşı Sağlam Konuşma Ajanları makalesinde UAT'nin iki varyantını inceledi. Amaç, belirli bir konuşmada toksik bir yanıtı etkili bir şekilde tetikleyen saldırgan bir mesaj oluşturmak ve saldırının konuşma boyunca akıcı, tutarlı ve tutarlı olmasını sağlamaktır.

这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。

Şekil 6: UTSC'nin nasıl çalıştığına dair şema

UAT-LM ve UTSC-1, UAT kıyaslamalarıyla aynı seviyede performans gösterir, ancak UAT saldırı ifadeleri şaşırtıcı derecede kafa karıştırıcıdır ve hem UAT-LM hem de UTSC-1'den çok daha yüksektir. Yüksek karışıklık, saldırıların tespit edilmesini ve azaltılmasını kolaylaştırır. İnsan değerlendirmelerine göre, UTSC-1 saldırıları diğer saldırı yöntemlerine göre daha tutarlı, akıcı ve ilgili sonuçlar üretir.

*Şekil 7: Savunma modelinin oluşturulan saldırıya verdiği yanıta dayalı olarak farklı toksisite sınıflandırıcıları tarafından ölçülen saldırı başarı oranı. *

Zou ve ark. (2023)'in "Algılanamayan Toksisite Tetikleyicilerine Karşı Sağlam Konuşma Aracıları" makalesi, genel bir çekişmeli tetikleyici belirtecinin bir girdi isteğine son ek olarak bağlanması durumunu da incelemektedir. Özellikle, modelin yanıtlamayı reddetmesi gereken LLM'lere yönelik kötü niyetli isteklere baktılar. Aslında, suç önerileri gibi izin verilmeyen içerik kategorilerini reddetmek, GPT-4'te yerleşik olarak bulunan önemli bir güvenlik önlemidir. Buradaki düşmanca amaç, LLM'nin cevabı reddetmesi gerektiğinde bile olumlu bir yanıt vermesini sağlamaktır. Bu, kötü amaçlı bir istek alındığında, modelin şu şekilde yanıt verdiği anlamına gelir: "Tabii ki, bunu yapmanız gerekiyor..."ve beklenen olumlu yanıt, "elbette" yanıtını optimize etmek için konunun son ekini değiştirmekten kaçınmak için bazı kullanıcıları çoğaltacak şekilde yapılandırılır. Kayıp fonksiyonu, çıktı hedef yanıtının NLL (negatif log olasılığı) kadar basittir.

*Şekil 8: Çekişmeli tetikleyicinin tanıtıldığı yerin çizimi. Kırmızı ünlem işareti, öğrenilecek düşmanca belirteci temsil eder. *

Vicuna-7b ve Vicuna-13b olmak üzere iki farklı model üzerinde deneyler yaptılar ve açgözlülükle bir aday bulmak için açgözlü koordinat gradyanı (GCG) tabanlı bir arama kullandılar, böylece aday olası tüm tek token ikamelerinde kayıpları en aza indirebildi.

Saldırı dizileri tamamen açık kaynaklı modellerde eğitilmiş olsa da, şaşırtıcı bir şekilde diğer ticari modellere taşınabilirdi, bu da açık kaynaklı modellere yönelik beyaz kutu saldırılarının, özellikle düşük seviyeli eğitim verilerinin örtüştüğü durumlarda, tescilli modellere karşı da etkili olabileceğini düşündürmektedir. Vicuna'nın eğitiminin, doğası gereği damıtma olan GPT-3.5-turbo'dan (shareGPT aracılığıyla) toplanan verileri kullandığını, bu nedenle bu saldırının daha çok bir beyaz kutu saldırısına benzediğini unutmayın.

*Şekil 9: HB (Zararlı Davranış) talimatlarında ortalama saldırı başarı oranı, bu da 5 kattan fazla ortalama bir sonuçtur. *

Jones ve ark. (2023) tarafından önerilen Otoregresif Rastgele Koordinat Artışı (ARCA), "Barack Obama" ile başlayan ancak toksik bir çıktıyla sonuçlanan toksik olmayan bir girdi gibi belirli bir davranış modeline uyan girdi-çıktı çiftlerini (x, y) bulmak için daha geniş bir optimizasyon problemleri kümesini ele alır. Bir denetim hedefi verildiğinde: φ : X×Y→R, bir çifti (giriş, çıkış tamamlama) bir puanla eşleştirir.

*Şekil 10: GPT-2 ve GPT-J'yi toksik çıktılar üretmeleri için kandırmanın ortalama başarı oranı. Kalın çizgi: CivilComments'in tüm çıktıları; noktalı çizgi: CivilComments'in 1,2,3 jetonlu toksik çıktısı. *

Jailbreak Tasarımı

Jailbreak, LLM'leri kaçınılması gereken zararlı içerik çıkarmaları için kandırmaya yönelik düşmanca bir girişimdir. Jailbreak bir kara kutu saldırısıdır, bu nedenle sözcüksel kombinasyonlar buluşsal yöntemlere ve insan keşfine dayanır. Wei ve ark. (2023)'in "Jailbroken: LLM Güvenlik Eğitimi Nasıl Başarısız Olur?" başlıklı makalesi, LLM güvenliği için jailbreak saldırılarının tasarımına rehberlik etmek için kullanılabilecek iki arıza modu önermektedir.

1. Rekabet eden hedefler: Bu, modelin yeteneklerinin (örneğin, "her zaman emirleri takip etmelidir") güvenlik hedefleriyle çakıştığı zamandır. Rakip hedeflerden yararlanan jailbreak saldırılarına örnek olarak şunlar verilebilir:

  • Önek enjeksiyonu: Modelin olumlu bir onay ifadesiyle başlamasını gerektirir.
  • Reddetme Bastırma: Modele, reddedilen bir biçimde yanıt vermemesi için ayrıntılı talimatlar verin.
  • Stil enjeksiyonu: Modelin uzun kelimeler kullanmamasını gerektirir, böylece model bir sorumluluk reddi beyanı vermek veya reddedilme nedenini açıklamak için profesyonelce yazamaz.
  • Diğer: DAN (artık her şeyi yapabilir), AIM (her zaman akıllı ve vicdansız) vb. olarak rol yapma.

2. Uyumsuzluğun genelleştirilmesi: Bu, güvenlik eğitiminin yetenekli olduğu alanlara genellenememesi anlamına gelir. Bu, girdi modelin güvenli eğitim veri dağıtımının (OOD) dışında, ancak önceden eğitilmiş geniş külliyatı kapsamında olduğunda gerçekleşir. Örnekler:

  • Özel Kodlama: Çekişmeli girdiler oluşturmak için Base64 kodlamasını kullanın.
  • Karakter dönüşümleri: ROT13 şifresi, Mars yazısı veya beyin kalıntısı (harfleri görsel olarak benzer sayı ve sembollerle değiştirme), Mors kodu
  • Kelime dönüşümleri: Domuz Latincesi (hassas kelimeleri eşanlamlılarla değiştirmek, örneğin "çalmak" ile "çalmak"), yük bölme (hassas kelimeleri alt dizelere bölen sözde belirteç kaçakçılığı)
  • Seviye karışıklığı: Diğer dillere çeviri, modelin anlayabileceği şekilde gizlenmesini gerektirir

Wei ve ark. (2023), yukarıdaki ilkelerden oluşturulmuş kombinatoryal stratejiler de dahil olmak üzere çok sayıda jailbreak yöntemiyle deneyler yapar.

  • kombinasyon_1 önek ekleme, reddetme bastırma ve Base64 saldırılarını birleştirir.
  • Kombinasyon_2 stil enjeksiyonu ekler.
  • Kombinasyon_3, site içeriği oluşturma ve biçimlendirme konusunda kısıtlamalar ekler.

Şekil 11: Jailbreak hilelerinin türleri ve modele saldırmadaki başarı oranları

Greshake ve ark. (2023) "Kaydolduğunuz şey değil: Dolaylı Enjeksiyonla Gerçek Dünya LLM ile Entegre Uygulamalardan Ödün Verme" başlıklı makale, enjeksiyon saldırılarına yüksek düzeyde bakıyor. Bir saldırı ayrıntılı bir yöntem sağlamadığında ve yalnızca bir hedef sağladığında bile, modelin bunu otomatik olarak uygulamasının mümkün olduğunu savunuyor. Bir modelin harici API'lere ve araçlara erişimi olduğunda, daha fazla bilgiye, hatta özel bilgilere erişim, daha büyük bir kimlik avı saldırıları ve gözetleme saldırıları riskine yol açabilir.

İnsan Katılımı ile RED Takım Stratejisi

Wallace ve ark. (2019), "Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering" makalesinde, insanları modelleri parçalamaya yönlendirecek araçlar oluşturmak amacıyla insan katılımlı çekişmeli nesil önerdi.

QuizBowl QA veri setini denediler ve insanların TV bilgi yarışması programı Jeopardy'ninkine benzer sorular yazmasına ve bunları modeli yanlış tahminler yapmaya teşvik etmek için kullanmasına olanak tanıyan çekişmeli bir yazma arayüzü tasarladılar. Önem derecesine bağlı olarak, her kelime renk kodlu olacaktır (yani, kelime kaldırıldığında modelin tahmin edilen olasılığı değişecektir). Sözcük önemi, sözcük katıştırmalarına dayalı model gradyanı ile yaklaşık olarak hesaplanır.

*Şekil 12: Çekişmeli Yazma Arayüzü, burada sol üst kısım listelenen modelin ilk beş tahminidir ve sağ alt kısım, kelime öneminin renk kodlu olduğu kullanıcı sorusudur. *

Bir deneyde, insan eğitmenlerin yapması gereken şey, güvenli bir sınıflandırıcının şiddet içeren içeriği sınıflandıramadığı durumları bulmaktı. Ziegler ve ark. (2022), "Yüksek Riskli Güvenilirlik için Çekişmeli Eğitim" makalesinde, insan düşmanların bir sınıflandırıcının başarısızlık durumunu bulmalarına ve onu daha hızlı ve verimli bir şekilde ortadan kaldırmalarına yardımcı olmak için kullanılabilecek bir araç oluşturdu. Araç destekli yeniden yazmalar, tam manuel yeniden yazmalardan daha hızlıdır ve örnek başına gereken süreyi 20 dakikadan 13 dakikaya düşürür. Kesin olmak gerekirse, insan yazarlara yardımcı olmak için iki özellik sundular: her belirteç için anlamlılık puanını görüntüleme, belirteç değiştirme ve ekleme.

*Şekil 13: Sınıflandırıcılara yönelik düşmanca saldırılarda insanlara yardımcı olacak araçlara sahip kullanıcı arayüzü. İnsanların yapması gereken, modelin girdinin şiddet içerdiğini tahmin etme olasılığını azaltmak için düzenlemek veya tamamlamaktır. *

Xu ve ark. (2021) "Güvenli Konuşma Aracıları için Bot-Çekişmeli Diyalog", insanları modelleri hata yapmaları için kandırmaya (örneğin, güvenli olmayan içerik çıktısı almaya) yönlendirebilecek bir çerçeve olan Bot-Çekişmeli Diyalog (BAD) önermektedir. Modeller ve kitle kaynaklı çalışanlar arasında 5.000'den fazla konuşma seti topladılar. Her konuşma seti 14 turdan oluşuyordu ve daha sonra modeli güvenli olmayan konuşma turlarının sayısına göre puanladılar. Saldırgan etiketlere sahip yaklaşık 2500 konuşma setinden oluşan BAD bir veri kümesiyle sonuçlandılar.

Anthropic'in kırmızı takım veri seti, insan kırmızı takım üyeleri ve LLM'ler arasındaki konuşmalardan toplanan yaklaşık 40.000 düşmanca saldırı içerir. RLHF'nin boyutu ne kadar büyükse, saldırmanın o kadar zor olduğunu buldular. GPT-4 ve DALL-E 3 gibi OpenAI tarafından piyasaya sürülen büyük modeller, güvenlik hazırlığı için genellikle insan uzman kırmızı ekipleri kullanır.

Veri kümesi adresi:

Model Kırmızı Takım Stratejisi

İnsan kırmızı takım stratejisi güçlüdür, ancak geniş ölçekte uygulanması zordur ve çok sayıda eğitimli profesyonel gerektirebilir. Şimdi, güvenli olmayan bir yanıt vermek için tetiklemek için hedef LLM'yle yüzleşmek için kırmızı bir takım modeli öğrenebileceğimizi hayal edin. Model tabanlı kırmızı takım stratejileri için asıl zorluk, bir saldırının başarılı olup olmadığının nasıl belirleneceğidir ve yalnızca bunu bilerek kırmızı takım modelini eğitmek için uygun öğrenme sinyalleri oluşturabiliriz.

Modelin çıktısının zararlı olup olmadığını söyleyebilecek yüksek kaliteli bir sınıflandırıcıya sahip olduğumuzu varsayarsak, sınıflandırıcının hedef modelin çıktısındaki puanını en üst düzeye çıkaran bazı girdiler elde etmek için kırmızı takım modelini eğitmek için bunu bir ödül olarak kullanabiliriz. r (x, y), bir x test girdisi verildiğinde y çıktısının zararlı olup olmadığını belirleyebilen böyle bir kırmızı takım sınıflandırıcısı olsun. Perez ve ark. (2022) tarafından hazırlanan "Red Teaming Language Models with Language Models" makalesine göre, çekişmeli saldırı örneklerini bulmak üç adımlı basit bir süreci takip eder:

  1. Kırmızı bir takımdan örnek test girdileri LLM x~p_red (.);
  2. Hedef LLM p (y | x) kullanarak her test senaryosu x için bir y çıktısı oluşturun;
  3. Sınıflandırıcıya r (x, y) göre, test senaryosunun zararlı çıktı alacak bir alt kümesini bulun.

Kırmızı takım modelinden örnek almak veya kırmızı takım modelini daha verimli hale getirmek için daha fazla eğitmek için sıfır atış üretimi, rastgele birkaç atış üretimi, denetimli öğrenme ve pekiştirmeli öğrenme dahil olmak üzere çeşitli yöntemler denediler.

Casper vd. (2023) adlı kullanıcının "Explore, Estrender, Exploit: Red Teaming Language Models from Scratch" başlıklı makalesi, insan katılımıyla bir kırmızı takım süreci tasarlar. Perez ve ark. (2022), göreve özgü bir kırmızı takım sınıflandırıcısını eğitmek için üzerindeki insan etiketlerinin toplanabilmesi için hedef model için açıkça bir veri örnekleme aşaması belirlemesidir. Üç aşamadan oluşur: Aşağıdaki şekilde gösterildiği gibi Keşfet, Oluştur ve Yararlan.

Şekil 15: Üç Adımlı Araştır-İnşa Et-Kullan Yaklaşımıyla Kırmızı Takım Strateji Süreci

Mehrabi ve ark. 2023'ün "FLIRT: Geri Bildirim Döngüsü Bağlam İçi Kırmızı Ekip Oluşturma" başlıklı makalesi, görüntü veya metin oluşturma modeli p'ye saldırmak ve güvenli olmayan içerik çıkarmasını sağlamak için kırmızı ekip LM p_red'nin bağlam öğrenimine dayanır.

Her FLIRT yinelemesinde:

  1. Kırmızı takım LM p_red, ilk bağlam örneklerinin insanlar tarafından tasarlandığı çekişmeli bir x~p_red (. | örnekler) oluşturur;
  2. Buna dayalı olarak p modeli oluşturun Bir görüntü veya metin çıktısı oluşturun y;
  3. Oluşturulan içeriği değerlendirmek için sınıflandırıcılar gibi mekanizmaları kullanın y güvenli olup olmadığını görmek için;
  4. y'nin güvensiz olduğu düşünülürse, p_red bağlam şablonunu güncellemek için x tetikleyicisini kullanın, böylece ilkeye dayalı olarak yeni bir çekişmeli oluşturur.

FLIRT'in bağlam şablonlarının nasıl güncelleneceğine ilişkin çeşitli stratejiler vardır: FIFO, LIFO, Puanlama ve Puanlama-LIFO. Ayrıntılar için orijinal makaleye bakın.

*Şekil 16: Farklı yayılma modellerinde farklı saldırı stratejileri için saldırı etkinliği (güvenli olmayan bir sonucu tetikleyen üretim yüzdesi). Kıyaslama SFS'dir (Rastgele Minimal Örnek). Parantez içindeki değerler benzersiz yüzdelerdir. *

Eyer noktalarına saldırma sorunuyla nasıl başa çıkılır

Madry ve ark. (2017), "Çekişmeli Saldırılara Dirençli Derin Öğrenme Modellerine Doğru", sağlam bir optimizasyon problemi haline gelen bir eyer noktası problemi olarak modellenen çekişmeli sağlamlık için iyi bir çerçeve önermektedir. Çerçeve, sınıflandırma görevlerine sürekli girdi için önerilmiştir, ancak iki katmanlı optimizasyon sürecini oldukça özlü matematiksel formüllerle açıklar, bu nedenle paylaşmaya değer.

Çiftlerden (örnekler, etiketler), (x,y)∈D'den oluşan bir veri dağılımına dayalı bir sınıflandırma görevini ele alalım ve sağlam bir sınıflandırıcı eğitme amacı bir eyer noktası problemidir:

burada S⊆R^d, bir görüntünün çekişmeli versiyonunun orijinaline benzer görünmesini istiyorsak, örneğin düşmanca amaçlar için kullanılmasına izin verilen bir dizi bozulmayı ifade eder.

Amacı, bir iç maksimizasyon problemi ve bir dış minimizasyon probleminden oluşur:

  • Dahili Maksimizasyon: Yüksek kayıplara neden olabilecek en etkili çekişmeli veri noktaları x+δ'yi arayın. Tüm düşmanca saldırı yöntemleri, nihayetinde bu iç sürecin kaybının nasıl en üst düzeye çıkarılacağına indirgenir.
  • Dış Minimizasyon: Dahili maksimizasyon işlemi tarafından bulunan en etkili saldırının kaybının en aza indirilebilmesi için en iyi model parametrelendirme şemasını bulun. Sağlam bir modeli eğitmenin kolay bir yolu, her veri noktasını, tek bir veri noktasının birden çok çekişmeli varyantı olabilen bozulma sürümleriyle değiştirmektir.

*Şekil 17: Ayrıca, düşmanca saldırılar karşısında sağlamlığın, karar sınırlarını karmaşıklaştırdığı için daha fazla model gücü gerektirdiğini buldular. İlginç bir şekilde, veri büyütmenin yokluğunda, daha büyük modeller modelin sağlamlığını artırmaya yardımcı olur. *

LLM sağlamlığı üzerine bazı araştırma çalışmaları

İşte LLM'lerin sağlamlığı üzerine yapılan bazı araştırmalara kısa bir bakış.

Xie ve ark. 2023'ün "ChatGPT'yi Kendi Kendine Hatırlatma Yoluyla Jailbreak Saldırısına Karşı Savunma" başlıklı makalesi, bir modeli düşmanca saldırılardan korumanın basit ve sezgisel bir yolunu buldu: modele sorumlu olması ve zararlı içerik oluşturmaması için açıkça talimat verin. Bu, jailbreak saldırılarının başarı oranını büyük ölçüde azaltır, ancak modelin neslinin kalitesi üzerinde bir yan etkisi vardır, çünkü bu tür talimatlar modeli muhafazakar hale getirebilir (örneğin, yaratıcı yazma için kötü) veya bazı durumlarda talimatları yanlış yorumlayabilir (örneğin, güvenli-güvensiz sınıflandırma durumunda).

Çekişmeli saldırı riskini azaltmak için en yaygın yöntem, "çekişmeli eğitim" olarak bilinen bu saldırı örnekleriyle bir model eğitmektir. Bu, en güçlü savunma olarak kabul edilir, ancak sağlamlık ve model performansı arasında bir denge gerektirir. Jain ve ark. 2023, iki çekişmeli eğitim kurulumunu deneysel olarak test etti ve sonuçlar "Uyumlu Dil Modellerine Karşı Çekişmeli Saldırılar için Temel Savunmalar" makalesinde rapor edildi: (1) zararlı kullanımı ve "Üzgünüm. (2) Her eğitim adımı için, reddetme yanıtında azalan bir adım ve kırmızı takımın zayıf yanıtında artan bir adım çalıştırın. Sonunda, yöntemin (2) işe yaramaz olduğunu gördüler çünkü modelin kalitesi çok daha düşüktü ve saldırı başarı oranı sadece küçük bir düşüştü.

Beyaz kutu saldırıları genellikle anlamsız görünen ve bu nedenle kafa karışıklığıyla tespit edilebilen çatışmalarla sonuçlanır. Elbette, açıkça optimize ederek kafa karışıklığını azaltarak, beyaz kutu saldırıları, UT'nin bir çeşidi olan UAT-LM gibi bu algılama yöntemini doğrudan atlayabilir. Ancak bu aynı zamanda saldırının başarı oranının düşmesine de yol açabilir.

Şekil 18: Karışıklık filtreleri [Zou et al. (2023)]'den gelen saldırıları engelleyebilir. PPL Geçti ve PPL Penceresi Geçti, olumsuz bir sonek baypas filtresine sahip zararlı filtrelerin tespit edilmeme oranını ifade eder. Geçiş hızı ne kadar düşükse, filtre o kadar iyi olur. Adres:

Jain ve ark. 2023 ayrıca, anlamsal anlamı korurken çekişmeli değişikliklerin kaldırılabilmesi için metin girişinin ön işleme yöntemlerini de test eder.

  • Anlamı yorumlayın: Giriş metninin anlamını yorumlamak için LLM'leri kullanın, bu da aşağı akış görev performansı üzerinde küçük bir etkiye sahip olabilir.
  • Retokenizasyon: Token'ları bölün ve BPE-dropout (token'lerin belirli bir yüzdesini rastgele bırakarak) gibi birden fazla küçük token'la temsil edin. Bu yaklaşımı kullanan varsayım, çekişmeli tokenlerin belirli bir kombinasyonundan yararlanma olasılığının yüksek olduğudur. Bu, saldırının başarı oranını azaltmaya yardımcı olur, ancak %90'dan %40'a kadar sınırlıdır.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)