Orang yang bertanggung jawab atas sistem keamanan OpenAI menyisir artikel panjang: serangan permusuhan dan pertahanan model besar

LLM sangat kuat, dan jika seseorang dengan motif tersembunyi menggunakannya untuk melakukan hal-hal buruk, itu dapat memiliki konsekuensi yang tidak terduga dan serius. Sementara sebagian besar LLM komersial dan open-source memiliki beberapa keamanan bawaan, mereka tidak selalu melindungi terhadap berbagai serangan permusuhan. Baru-baru ini, Lilian Weng, kepala tim Sistem Keamanan OpenAI, menerbitkan posting blog "Serangan Permusuhan terhadap LLM", yang memilah jenis serangan permusuhan terhadap LLM dan secara singkat memperkenalkan beberapa metode pertahanan.

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Dengan dirilisnya ChatGPT, aplikasi model bahasa besar semakin cepat dalam skala besar. Tim sistem keamanan OpenAI telah menginvestasikan sumber daya yang signifikan dalam meneliti bagaimana membangun perilaku keamanan default untuk model selama penyelarasan. Namun, masih mungkin untuk serangan permusuhan atau jailbreak untuk membuat output model sesuatu yang tidak kita harapkan untuk dilihat.

Saat ini, banyak penelitian tentang serangan permusuhan berfokus pada gambar, yaitu dalam ruang dimensi tinggi yang berkelanjutan. Untuk data diskrit seperti teks, secara umum diterima bahwa serangan akan jauh lebih sulit karena kurangnya sinyal gradien. Lilian Weng sebelumnya telah menulis artikel tentang topik ini, Controllable Text Generation. Sederhananya: menyerang LLM pada dasarnya mengendalikan konten (tidak aman) dari item kelas tertentu yang dihasilkan model.

Alamat artikel:

Cabang penelitian lain yang menyerang LLM adalah mengekstrak data yang telah dilatih sebelumnya, pengetahuan pribadi, atau menyerang proses pelatihan model dengan meracuni data. Tapi itu bukan subjek artikel ini.

Model Ancaman Pengetahuan Dasar

Serangan permusuhan adalah input yang menipu model untuk mengeluarkan sesuatu yang tidak kita harapkan. Sementara banyak penelitian sebelumnya berfokus pada tugas klasifikasi, pekerjaan yang lebih baru telah mulai lebih fokus pada output model generatif. Artikel ini berisi uraian tentang model bahasa besar dan mengasumsikan bahwa serangan hanya terjadi pada tahap inferensi, yang berarti bobot model tetap.

Gambar 1: Profil Ancaman untuk Aplikasi LLM

Mengklasifikasikan

Di masa lalu, komunitas riset lebih peduli dengan serangan permusuhan terhadap pengklasifikasi, dan banyak di bidang gambar. LLM juga dapat digunakan untuk klasifikasi. Diberi input x dan pengklasifikasi f(.) , kami ingin menemukan versi permusuhan bernuansa input x_adv sedemikian rupa sehingga f(x) ≠f(x_adv).

** Pembuatan Teks **

Diberi input x dan model generatif p(.) , model dapat menampilkan sampel y~p(.|𝐱)。 Serangan permusuhan di sini adalah untuk menemukan p (x) sehingga y akan melanggar perilaku keamanan bawaan model, seperti mengeluarkan konten yang tidak aman pada topik ilegal, membocorkan informasi pribadi, atau data pelatihan model. Tidak mudah untuk menilai keberhasilan serangan untuk tugas build, yang membutuhkan pengklasifikasi berkualitas sangat tinggi untuk menentukan apakah y aman atau memerlukan pengawasan manusia.

Kotak Putih vs. Kotak Hitam

Serangan kotak putih mengasumsikan bahwa penyerang memiliki akses penuh ke bobot model, arsitektur, dan alur kerja pelatihan, sehingga penyerang dapat memperoleh sinyal gradien. Kami tidak berasumsi bahwa penyerang akan memiliki akses ke semua data pelatihan. Ini hanya berlaku untuk model sumber terbuka. Serangan kotak hitam mengasumsikan bahwa penyerang hanya dapat mengakses layanan tipe API — penyerang dapat memberikan input x dan mendapatkan sampel y dari umpan balik tanpa mengetahui lebih banyak tentang model.

** Jenis Serangan Permusuhan **

Ada sejumlah cara berbeda untuk membantu penyerang menemukan input permusuhan yang dapat mengelabui LLM agar mengeluarkan konten yang tidak aman. Berikut adalah lima cara untuk melakukannya.

token 操作

Mengingat sepotong input teks yang berisi urutan token, kita dapat menggunakan operasi token sederhana (misalnya menggantinya dengan sinonim) untuk mengelabui model agar membuat prediksi palsu. Serangan berbasis token adalah serangan kotak hitam. Dalam kerangka kerja Python, makalah Morris et al. 2020 "TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP" mengimplementasikan sejumlah metode serangan manipulasi kata dan token yang dapat digunakan untuk membuat sampel permusuhan untuk model NLP. Sebagian besar penelitian di bidang ini bereksperimen dengan klasifikasi dan prediksi entailment.

Sebagai contoh, studi Ribeiro et al (2018) "Semantically Equivalent Adversarial Rules for Debugging NLP models" bergantung pada "Semantic Equivalence Adversarial Rules (SEAR)" yang diusulkan secara artifisial, yang dapat mencegah model menghasilkan jawaban yang benar dengan operasi token sesedikit mungkin. Misalnya, aturan termasuk mengganti Apa dengan Yang dan dengan adalah. Selain itu, ada metode lain yang diusulkan oleh peneliti lain, seperti mengganti kata kunci dan mengganti sinonim.

Serangan berbasis gradien

Dalam kasus serangan kotak putih, penyerang dapat memperoleh semua parameter dan arsitektur model. Akibatnya, penyerang dapat mengandalkan penurunan gradien untuk secara terprogram mempelajari vektor serangan yang paling efektif. Serangan berbasis gradien hanya berfungsi dalam pengaturan kotak putih, seperti LLM sumber terbuka.

Serangan Permusuhan berbasis Gradien terhadap Transformer Teks yang diusulkan oleh Guo et al. (2021) menggunakan teknik pendekatan Gumbel-Softmax untuk mengoptimalkan diferensiabilitas kerugian permusuhan, dan juga menggunakan BERTScore dan kebingungan untuk meningkatkan persepsi dan kelancaran.

Namun, trik Gumbel-softmax tidak dapat diskalakan untuk penghapusan atau penambahan token, tetapi dibatasi oleh substitusi token.

Ebrahimi et al. (2018) dalam makalah "HotFlip: White-Box Adversarial Examples for Text Classification" memperlakukan operasi teks sebagai input dalam ruang vektor, dan mengukur turunan yang hilang pada vektor ini. HotFlip dapat diperpanjang untuk penghapusan atau penambahan token.

Wallace et al. (2019) makalah "Universal Adversarial Triggers for Attacking and Analyzing NLP" mengusulkan metode untuk melakukan pencarian yang dipandu gradien pada token untuk menemukan urutan pendek yang menginduksi model untuk menghasilkan prediksi tertentu, yang disebut Universal Adversarial Triggers (UAT, Pemicu Permusuhan Universal). UAT adalah input-agnostik, yang berarti bahwa pemicu ini dapat dihubungkan sebagai awalan (atau akhiran) ke input apa pun dari himpunan data.

Shin et al., 2020's Auto: Eliciting Knowledge from Language Models with Automatically Generated s menggunakan strategi pencarian berbasis gradien yang sama untuk menemukan template yang paling efektif untuk beragam tugas.

Metode pencarian token di atas dapat ditingkatkan dengan beam search. Saat mencari penyematan token yang optimal, Anda dapat memilih kandidat k teratas alih-alih satu kandidat pun, mencari dari kiri ke kanan pada kumpulan data saat ini, dan menilai setiap balok berdasarkan L_adv.

Gambar 4: Diagram cara kerja UAT

Hilangnya UAT L_adv perlu dirancang untuk tugas tertentu. Klasifikasi atau pemahaman bacaan bergantung pada entropi silang.

Gambar 5: Contoh UAT untuk Berbagai Jenis Tugas Bahasa

Mengapa UAT bekerja? Ini pertanyaan yang menarik. Karena UAT adalah input-agnostik dan dapat ditransfer antar model dengan penyematan, skema tokenisasi, dan arsitektur yang berbeda, mereka mungkin dapat memanfaatkan bias secara efektif dalam data pelatihan yang sudah dibangun ke dalam perilaku global model.

Ada kerugian menggunakan serangan UAT: mudah dideteksi. Alasan untuk ini adalah bahwa pemicu yang dipelajari seringkali tidak berarti. Mehrabi et al. (2022) meneliti dua varian UAT dalam makalah Robust Conversational Agents against Imperceptible Toxicity Triggers, yang membuat pemicu yang dipelajari tidak terlihat dalam konteks percakapan multi-putaran. Tujuannya adalah untuk menciptakan pesan ofensif yang secara efektif memicu respons beracun dalam percakapan tertentu, sambil memastikan bahwa serangan itu lancar, koheren, dan konsisten sepanjang percakapan.

这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。

Gambar 6: Diagram cara kerja UTSC

UAT-LM dan UTSC-1 berkinerja setara dengan tolok ukur UAT, tetapi frasa serangan UAT secara mengejutkan membingungkan dan jauh lebih tinggi daripada UAT-LM dan UTSC-1. Kebingungan yang tinggi membuat serangan lebih mudah dideteksi dan dimitigasi. Menurut evaluasi manusia, serangan UTSC-1 menghasilkan hasil yang lebih konsisten, lancar, dan relevan daripada metode serangan lainnya.

*Gambar 7: Tingkat keberhasilan serangan yang diukur dengan pengklasifikasi toksisitas yang berbeda berdasarkan respons model defender terhadap serangan yang dihasilkan. *

Makalah Zou et al. (2023) "Agen Percakapan yang Kuat terhadap Pemicu Toksisitas yang Tidak Terlihat" juga meneliti kasus menghubungkan token pemicu permusuhan generik sebagai akhiran untuk permintaan input. Mereka melihat secara khusus permintaan jahat ke LLM - yang modelnya harus menolak untuk menjawab. Bahkan, menolak kategori konten yang tidak diizinkan, seperti saran kriminal, adalah langkah keamanan penting yang dibangun ke dalam GPT-4. Tujuan permusuhan di sini adalah untuk mendorong LLM untuk menghasilkan respons positif bahkan ketika harus menolak jawabannya. Ini berarti bahwa ketika permintaan jahat diterima, model merespons seperti ini, "Tentu saja, Anda perlu melakukan ini ...", dan respons positif yang diharapkan juga dikonfigurasi untuk menduplikasi beberapa pengguna, untuk menghindari hanya mengubah akhiran topik untuk mengoptimalkan respons "tentu saja". Fungsi kerugian sesederhana NLL (negative log-likelihood) dari respons target output.

*Gambar 8: Ilustrasi di mana pemicu permusuhan diperkenalkan. Tanda seru merah mewakili token permusuhan yang harus dipelajari. *

Mereka bereksperimen pada dua model yang berbeda, Vicuna-7b dan Vicuna-13b, menggunakan pencarian berbasis greedy coordinate gradient (GCG) untuk dengan rakus menemukan kandidat sehingga kandidat dapat meminimalkan kerugian di semua kemungkinan substitusi token tunggal.

Meskipun urutan serangan mereka dilatih sepenuhnya pada model open-source, mereka secara mengejutkan portabel untuk model komersial lainnya, menunjukkan bahwa serangan white-box pada model open-source juga dapat efektif terhadap model proprietary, terutama ketika ada tumpang tindih data pelatihan tingkat rendah. Perhatikan bahwa pelatihan Vicuna menggunakan data yang dikumpulkan dari GPT-3.5-turbo (melalui shareGPT), yang bersifat distilasi, jadi serangan ini lebih seperti serangan kotak putih.

*Gambar 9: Tingkat keberhasilan serangan rata-rata pada instruksi HB (Perilaku Berbahaya), yang merupakan hasil rata-rata lebih dari 5 kali. *

Autoregressive Random Coordinate Rise (ARCA) yang diusulkan oleh Jones et al. (2023) mempertimbangkan serangkaian masalah pengoptimalan yang lebih luas untuk menemukan pasangan input-output (x, y) yang sesuai dengan pola perilaku tertentu, seperti input tidak beracun yang dimulai dengan "Barack Obama" tetapi menghasilkan output beracun. Diberikan tujuan audit: φ : X×Y→R, yang memetakan pasangan (input, penyelesaian output) ke skor.

*Gambar 10: Tingkat keberhasilan rata-rata menipu GPT-2 dan GPT-J untuk menghasilkan output beracun. Garis tebal: semua output dari CivilComments; garis putus-putus: output beracun 1,2,3-token dari CivilComments. *

** Desain Jailbreak **

Jailbreaking adalah upaya permusuhan untuk mengelabui LLM agar mengeluarkan konten berbahaya yang harus dihindari. Jailbreaking adalah serangan kotak hitam, jadi kombinasi leksikal didasarkan pada heuristik dan eksplorasi manusia. Makalah Wei et al. (2023) "Jailbroken: How Does LLM Safety Training Fail?" mengusulkan dua mode kegagalan untuk keamanan LLM, yang dapat digunakan untuk memandu desain serangan jailbreak.

1. Tujuan bersaing: Ini adalah saat kemampuan model (misalnya, "harus selalu mengikuti perintah") bertentangan dengan tujuan keamanan. Contoh serangan jailbreak yang mengeksploitasi target yang bersaing meliputi:

  • Injeksi awalan: Mensyaratkan bahwa model harus dimulai dengan pernyataan pengakuan afirmatif.
  • Penindasan Penolakan: Berikan instruksi terperinci kepada model untuk tidak merespons dalam format yang ditolak.
  • Style injection: Mengharuskan model untuk tidak menggunakan kata-kata panjang, sehingga model tidak dapat menulis secara profesional untuk memberikan disclaimer atau menjelaskan alasan penolakan.
  • Lainnya: Bermain peran sebagai DAN (dapat melakukan apa saja sekarang), AIM (selalu cerdas dan tidak bermoral), dll.

**2. Generalisasi ketidakcocokan **: Ini mengacu pada ketidakmampuan pelatihan keselamatan untuk menggeneralisasi ke area di mana ia mampu. Ini terjadi ketika input berada di luar distribusi data pelatihan aman (OOD) model, tetapi dalam lingkup korpus pra-terlatih yang luas. Contohnya termasuk:

  • Pengkodean Khusus: Gunakan pengkodean Base64 untuk membangun input permusuhan.
  • Transformasi karakter: sandi ROT13, skrip Mars atau sisa otak (mengganti huruf dengan angka dan simbol yang mirip secara visual), kode Morse
  • Konversi kata: Pig Latin (mengganti kata-kata sensitif dengan sinonim, misalnya "mencuri" dengan "mencuri"), pemisahan beban (disebut penyelundupan token, yang membagi kata-kata sensitif menjadi substring)
  • Tingkat kebingungan: Terjemahan ke bahasa lain membutuhkan model untuk dikaburkan dengan cara yang dapat dipahami

Wei et al. (2023) bereksperimen dengan sejumlah besar metode jailbreak, termasuk strategi kombinatorial yang dibangun dari prinsip-prinsip di atas.

  • kombinasi \ _1 menggabungkan injeksi awalan, penindasan penolakan, dan serangan Base64.
  • Kombinasi \ _2 menambahkan injeksi gaya.
  • kombinasi \ _3 menambahkan kendala pada menghasilkan konten situs dan format.

Gambar 11: Jenis trik jailbreak dan tingkat keberhasilannya dalam menyerang model

Makalah Greshake et al. (2023) "Not what you've sign up for: Compromising Real-World LLM-Integrated Applications with Indirect Injection" melihat serangan injeksi pada tingkat tinggi. Ini berpendapat bahwa bahkan ketika serangan tidak memberikan metode terperinci dan hanya memberikan target, adalah mungkin bagi model untuk mengimplementasikannya secara otomatis. Ketika model memiliki akses ke API dan alat eksternal, akses ke lebih banyak informasi, bahkan informasi kepemilikan, dapat menyebabkan risiko serangan phishing dan serangan pengintaian yang lebih besar.

Strategi Tim RED dengan Keterlibatan Manusia

Wallace et al. (2019) mengusulkan generasi permusuhan yang terlibat manusia dalam makalah "Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering", dengan tujuan membangun alat untuk memandu manusia memecah model.

Mereka bereksperimen dengan dataset QA QuizBowl dan merancang antarmuka penulisan permusuhan yang akan memungkinkan manusia untuk menulis pertanyaan yang mirip dengan acara kuis TV Jeopardy dan menggunakannya untuk mendorong model untuk membuat prediksi palsu. Tergantung pada tingkat kepentingannya, setiap kata akan diberi kode warna (yaitu, probabilitas model yang diprediksi akan berubah ketika kata tersebut dihapus). Kepentingan kata didekati oleh gradien model berdasarkan penyematan kata.

*Gambar 12: Adversarial Writing Interface, di mana bagian kiri atas adalah lima prediksi pertama dari model yang terdaftar, dan bagian kanan bawah adalah pertanyaan pengguna, di mana kata pentingnya diberi kode warna. *

Dalam satu percobaan, apa yang harus dilakukan pelatih manusia adalah menemukan kasus di mana pengklasifikasi yang aman gagal mengklasifikasikan konten kekerasan. Ziegler et al. (2022) menciptakan alat dalam makalah "Adversarial Training for High-Stakes Reliability" yang dapat digunakan untuk membantu musuh manusia dalam menemukan kondisi kegagalan pengklasifikasi dan menghilangkannya dengan lebih cepat dan efisien. Penulisan ulang dengan bantuan alat lebih cepat daripada penulisan ulang manual penuh, mengurangi waktu yang diperlukan per sampel dari 20 menit menjadi 13 menit. Tepatnya, mereka memperkenalkan dua fitur untuk membantu penulis manusia: menampilkan skor signifikansi untuk setiap token, substitusi token, dan penyisipan.

*Gambar 13: UI dengan alat untuk membantu manusia dalam serangan permusuhan terhadap pengklasifikasi. Yang harus dilakukan manusia adalah mengedit atau menyelesaikan untuk mengurangi kemungkinan bahwa model memprediksi bahwa inputnya keras. *

Xu et al. (2021) "Bot-Adversarial Dialogue for Safe Conversational Agents" mengusulkan Bot-Adversarial Dialogue (BAD), kerangka kerja yang dapat mengarahkan manusia untuk mengelabui model agar membuat kesalahan (misalnya, mengeluarkan konten yang tidak aman). Mereka mengumpulkan lebih dari 5.000 set percakapan antara model dan pekerja crowdsourcing. Setiap rangkaian percakapan terdiri dari 14 putaran, dan mereka kemudian menilai model berdasarkan jumlah putaran percakapan yang tidak aman. Mereka berakhir dengan dataset BURUK dari sekitar 2500 set percakapan dengan label ofensif.

Dataset tim merah Anthropic berisi hampir 40.000 serangan permusuhan yang dikumpulkan dari percakapan antara tim merah manusia dan LLM. Mereka menemukan bahwa semakin besar ukuran RLHF, semakin sulit untuk diserang. Model besar yang dirilis oleh OpenAI, seperti GPT-4 dan DALL-E 3, umumnya menggunakan tim merah ahli manusia untuk persiapan keselamatan.

Alamat himpunan data:

Model Strategi Tim Merah

Strategi tim merah manusia sangat kuat, tetapi sulit untuk diterapkan dalam skala besar dan mungkin memerlukan sejumlah besar profesional terlatih. Sekarang bayangkan bahwa kita dapat mempelajari model tim merah, merah, untuk menghadapi target LLM untuk memicunya untuk memberikan respons yang tidak aman. Untuk strategi tim merah berbasis model, tantangan utamanya adalah bagaimana menentukan apakah suatu serangan berhasil atau tidak, dan hanya dengan mengetahui hal ini kita dapat membangun sinyal pembelajaran yang tepat untuk melatih model tim merah.

Dengan asumsi kita sudah memiliki pengklasifikasi berkualitas tinggi yang dapat mengetahui apakah output model berbahaya, kita dapat menggunakannya sebagai hadiah untuk melatih model tim merah untuk mendapatkan beberapa input yang memaksimalkan skor pengklasifikasi pada output model target. Biarkan r (x, y) menjadi salah satu pengklasifikasi tim merah yang dapat menentukan apakah output y berbahaya jika diberi input uji x. Menurut makalah "Red Teaming Language Models with Language Models" oleh Perez et al. (2022), menemukan sampel serangan permusuhan mengikuti proses tiga langkah sederhana:

  1. Input uji sampel dari tim merah LLM x ~ p \ _red (.);
  2. Hasilkan output y untuk setiap kasus uji x menggunakan target LLM p (y | x);
  3. Menurut pengklasifikasi r (x, y), temukan subset dari kasus uji yang akan mendapatkan output berbahaya.

Mereka bereksperimen dengan beberapa metode untuk mengambil sampel dari model tim merah atau melatih lebih lanjut model tim merah agar lebih efisien, termasuk generasi zero-shot, generasi beberapa tembakan acak, pembelajaran yang diawasi, dan pembelajaran penguatan.

Makalah Casper et al. (2023) "Explore, Establish, Exploit: Red Teaming Language Models from Scratch" merancang proses tim merah dengan keterlibatan manusia. Perbedaan utama dari Perez et al. (2022) adalah bahwa ia secara eksplisit menetapkan tahap pengambilan sampel data untuk model target sehingga label manusia di atasnya dapat dikumpulkan untuk melatih pengklasifikasi tim merah khusus tugas. Ini terdiri dari tiga fase: Jelajahi, Tetapkan, dan Eksploitasi, seperti yang ditunjukkan pada gambar di bawah ini.

Gambar 15: Proses Strategi Tim Merah dengan Pendekatan Explore-Build-Exploit Tiga Langkah

Makalah Mehrabi et al. 2023, "FLIRT: Feedback Loop In-context Red Teaming", bergantung pada pembelajaran konteks tim merah LM p_red untuk menyerang gambar atau model pembuatan teks p dan membuatnya menghasilkan konten yang tidak aman.

Dalam setiap iterasi FLIRT:

  1. Tim merah LM p_red menghasilkan x~p_red (. | contoh), di mana sampel konteks awal dirancang oleh manusia;
  2. Hasilkan model p berdasarkan ini Hasilkan output gambar atau teks y;
  3. Gunakan mekanisme seperti pengklasifikasi untuk mengevaluasi konten yang dihasilkan y untuk melihat apakah itu aman;
  4. Jika y dianggap tidak aman, gunakan pemicu x untuk memperbarui templat konteks p_red sehingga menghasilkan permusuhan baru berdasarkan kebijakan.

Ada beberapa strategi untuk cara memperbarui templat konteks FLIRT: FIFO, LIFO, Scoring, dan Scoring-LIFO. Lihat makalah asli untuk detailnya.

*Gambar 16: Efektivitas serangan (persentase generasi yang memicu hasil yang tidak aman) untuk strategi serangan yang berbeda pada model propagasi yang berbeda. Patokannya adalah SFS (Random Minimal Sample). Nilai dalam tanda kurung adalah persentase unik. *

Cara mengatasi masalah menyerang titik pelana

Madry et al. (2017), "Menuju Model Pembelajaran Mendalam yang Tahan terhadap Serangan Permusuhan", mengusulkan kerangka kerja yang baik untuk ketahanan permusuhan, yang dimodelkan sebagai masalah titik pelana, yang menjadi masalah pengoptimalan yang kuat. Kerangka kerja ini diusulkan untuk input berkelanjutan untuk tugas-tugas klasifikasi, tetapi menggambarkan proses optimasi dua lapis dengan rumus matematika yang cukup ringkas, sehingga layak untuk dibagikan.

Mari kita pertimbangkan tugas klasifikasi berdasarkan distribusi data yang terdiri dari pasangan (sampel, label), (x, y) ∈D, dan tujuan melatih pengklasifikasi yang kuat adalah masalah titik pelana:

di mana S⊆R^d mengacu pada serangkaian gangguan yang diizinkan untuk digunakan untuk tujuan permusuhan, seperti jika kita ingin versi permusuhan dari suatu gambar terlihat mirip dengan aslinya.

Tujuannya terdiri dari masalah maksimalisasi internal dan masalah minimalisasi eksternal:

  • Maksimalisasi Internal: Cari titik data permusuhan yang paling efektif x + δ yang dapat mengakibatkan kerugian tinggi. Semua metode serangan permusuhan pada akhirnya bermuara pada bagaimana memaksimalkan hilangnya proses internal ini.
  • Minimalisasi Eksternal: Temukan skema parameterisasi model terbaik sehingga hilangnya serangan paling efektif yang ditemukan oleh proses maksimalisasi internal dapat diminimalkan. Cara mudah untuk melatih model yang kuat adalah mengganti setiap titik data dengan versi perturbasinya, yang dapat berupa beberapa varian permusuhan dari satu titik data.

*Gambar 17: Mereka juga menemukan bahwa ketahanan dalam menghadapi serangan permusuhan membutuhkan kekuatan model yang lebih besar, karena mempersulit batas-batas keputusan. Menariknya, dengan tidak adanya augmentasi data, model yang lebih besar membantu meningkatkan ketahanan model. *

**Beberapa penelitian tentang ketahanan LLM **

Berikut adalah pandangan singkat pada beberapa penelitian tentang ketahanan LLM.

Makalah Xie et al. 2023, "Defending ChatGPT against Jailbreak Attack via Self-Reminder," menemukan cara sederhana dan intuitif untuk melindungi model dari serangan permusuhan: secara eksplisit menginstruksikan model untuk bertanggung jawab dan tidak menghasilkan konten berbahaya. Ini sangat mengurangi tingkat keberhasilan serangan jailbreak, tetapi memiliki efek samping pada kualitas generasi model, karena instruksi tersebut dapat membuat model konservatif (misalnya, buruk untuk penulisan kreatif) atau salah menafsirkan instruksi dalam beberapa kasus (misalnya, dalam kasus klasifikasi aman-tidak aman).

Untuk mengurangi risiko serangan permusuhan, metode yang paling umum adalah melatih model dengan sampel serangan ini, yang dikenal sebagai "pelatihan permusuhan". Ini dianggap sebagai pertahanan terkuat, tetapi membutuhkan keseimbangan antara ketahanan dan performa model. Jain et al. 2023 secara eksperimental menguji dua pengaturan pelatihan permusuhan, dan hasilnya dilaporkan dalam makalah "Pertahanan Dasar untuk Serangan Permusuhan Terhadap Model Bahasa Selaras": (1) penggunaan berbahaya dan penggunaan "Maaf. (2) Untuk setiap langkah pelatihan, jalankan langkah menurun pada respons penolakan dan langkah naik pada respons buruk tim merah. Akhirnya, mereka menemukan bahwa metode (2) tidak berguna karena kualitas modelnya jauh lebih rendah, dan tingkat keberhasilan serangannya hanya sedikit menurun.

Serangan kotak putih sering menghasilkan konfrontasi yang terlihat-dan karenanya dapat dideteksi oleh kebingungan. Tentu saja, dengan mengurangi kebingungan dengan secara eksplisit mengoptimalkan, serangan kotak putih dapat langsung melewati metode deteksi ini, seperti UAT-LM, varian UT. Namun, ini juga dapat menyebabkan penurunan tingkat keberhasilan serangan.

Gambar 18: Filter kebingungan dapat memblokir serangan dari [Zou et al. (2023)]. PPL Lulus dan Jendela PPL Lulus mengacu pada tingkat di mana filter berbahaya dengan akhiran permusuhan filter bypass tidak terdeteksi. Semakin rendah tingkat kelulusan, semakin baik filternya. Alamat:

Jain et al. 2023 juga menguji metode untuk input teks preprocessing sehingga modifikasi permusuhan dapat dihapus sambil mempertahankan makna semantik.

  • Menafsirkan makna: Gunakan LLM untuk menafsirkan makna teks input, yang mungkin berdampak kecil pada kinerja tugas hilir.
  • Retokenization: Pisahkan token dan wakili dengan beberapa token yang lebih kecil, seperti BPE-dropout (secara acak menjatuhkan persentase token tertentu). Asumsi menggunakan pendekatan ini adalah bahwa permusuhan cenderung memanfaatkan kombinasi spesifik dari token permusuhan. Ini memang membantu mengurangi tingkat keberhasilan serangan, tetapi terbatas, seperti dari lebih dari 90% hingga 40%.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)