Людина, відповідальна за систему безпеки OpenAI, прочесала довгу статтю: змагальна атака та захист великих моделей

LLM є потужними, і якщо хтось із прихованими мотивами використовує їх для поганих вчинків, це може мати непередбачувані та серйозні наслідки. Хоча більшість комерційних LLM і LLM з відкритим вихідним кодом мають певний вбудований захист, вони не обов'язково захищають від різноманітних зловмисних атак. Нещодавно Ліліан Венг, керівник команди OpenAI Safety Systems, опублікував у блозі пост «Змагальні атаки на LLM», в якому розібрав типи ворожих атак на LLM і коротко представив деякі методи захисту.

Першоджерело: Heart of the Machine

Джерело зображення: Створено Unbounded AI

З виходом ChatGPT великі мовні моделі додатків прискорюються у великих масштабах. Команда систем безпеки OpenAI інвестувала значні ресурси в дослідження того, як побудувати поведінку безпеки за замовчуванням для моделей під час вирівнювання. Тим не менш, все ще можливо, що ворожа атака або джейлбрейк змусять модель вийти так, як ми не очікуємо побачити.

В даний час значна частина досліджень ворожих атак зосереджена на зображеннях, тобто в безперервних високовимірних просторах. Для дискретних даних, таких як текст, прийнято вважати, що атака буде набагато складнішою через відсутність градієнтних сигналів. Ліліан Венг раніше написала статтю на цю тему «Керована генерація тексту». Простіше кажучи: атака на LLM – це, по суті, контроль (небезпечного) вмісту певного елемента класу, який видає модель.

Адреса статті:

Ще одна галузь досліджень, що атакує LLM, полягає в тому, щоб витягти заздалегідь навчені дані, приватні знання або атакувати процес навчання моделі шляхом отруєння даних. Але це не тема цієї статті.

Модель загроз базових знань

Ворожа атака – це вхідні дані, які обманом змушують модель вивести те, чого ми не очікуємо. У той час як більша частина ранніх досліджень була зосереджена на завданнях класифікації, пізніші роботи почали більше зосереджуватися на результатах генеративних моделей. Ця стаття присвячена великим мовним моделям і передбачає, що атака відбувається лише на стадії логічного висновку, а це означає, що вагові коефіцієнти моделі фіксовані.

Малюнок 1: Профіль загроз для додатків LLM

Класифікувати

У минулому дослідницьке співтовариство було більше стурбоване ворожими атаками на класифікатори, і багато з них у сфері зображень. LLM також можуть використовуватися для класифікації. Дано вхідні дані x і класифікатор f(.) , ми хочемо знайти нюансовану змагальну версію вхідних даних x_adv таку, що f(x) ≠f(x_adv).

Генерація тексту

Задано вхідні дані x і генеративна модель p(.) , модель може виводити зразок y~p(.|𝐱)。 Змагальна атака тут полягає в тому, щоб знайти p(x), щоб y порушив вбудовану поведінку безпеки моделі, таку як виведення небезпечного контенту на незаконні теми, витік приватної інформації або навчальні дані моделі. Нелегко судити про успіх атаки для завдання збірки, яка вимагає надвисокоякісного класифікатора, щоб визначити, чи є y безпечним або вимагає ретельного контролю з боку людини.

Біла коробка проти чорної скриньки

Атаки «білого ящика» припускають, що зловмисник має повний доступ до ваги моделі, архітектури та робочих процесів навчання, щоб зловмисник міг отримувати градієнтні сигнали. Ми не припускаємо, що зловмисник матиме доступ до всіх навчальних даних. Це стосується лише моделі з відкритим вихідним кодом. Атаки з чорним ящиком припускають, що зловмисник може отримати доступ лише до сервісів типу API — зловмисник може надати вхідні дані x і отримати вибірку y зворотного зв'язку, не знаючи більше про модель.

Типи ворожих атак

Існує кілька різних способів допомогти зловмиснику знайти ворожі вхідні дані, які можуть обманом змусити LLM виводити небезпечний вміст. Ось п'ять способів, як це зробити.

token 操作

Отримавши фрагмент тексту, який містить послідовність лексем, ми можемо використовувати просту операцію з токенами (наприклад, замінивши її синонімами), щоб обдурити модель, змусивши її зробити хибне передбачення. Атаки на основі токенів – це атаки з чорної скриньки. У фреймворку Python Morris et al. 2020 у статті «TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP» реалізовано низку методів атак маніпулювання словами та токенами, які можна використовувати для створення змагальних зразків для моделей NLP. Значна частина дослідницької роботи в цій галузі присвячена класифікації та прогнозуванню наслідків.

Наприклад, дослідження Ribeiro et al. (2018) «Семантично еквівалентні змагальні правила для налагодження моделей НЛП» спирається на штучно запропоновані «Змагальні правила семантичної еквівалентності (SEAR)», які можуть перешкодити моделі генерувати правильну відповідь з якомога меншою кількістю операцій з токенами. Наприклад, правила включають заміну What на What і was with is. Крім того, існують і інші методи, запропоновані іншими дослідниками, такі як заміна ключових слів і заміна синонімів.

Атаки на основі градієнта

У разі атаки «білого ящика» зловмисник може отримати всі параметри та архітектуру моделі. В результаті зловмисники можуть покладатися на градієнтний спуск, щоб програмно вивчити найбільш ефективні вектори атаки. Атаки на основі градієнта працюють лише в налаштуваннях білого ящика, таких як LLM з відкритим вихідним кодом.

Змагальні атаки на основі градієнта, запропоновані Guo et al. (2021), використовують техніку наближення Гамбела-Софтмакса для оптимізації диференційовності змагальних втрат, а також використовують BERTScore та збентеження для підвищення сприйняття та плавності.

Однак трюк Gumbel-softmax не масштабується для видалення або додавання токенів, а обмежений заміною токенів.

Ebrahimi et al. (2018) у статті «HotFlip: White-Box Adversarial Examples for Text Classification» розглядає текстові операції як вхідні дані у векторному просторі та вимірює похідні, втрачені на цих векторах. HotFlip можна розширити для видалення або додавання токенів.

Wallace et al. (2019) у статті «Універсальні змагальні тригери для атаки та аналізу НЛП» пропонує метод виконання градієнтного пошуку на токені для пошуку короткої послідовності, яка спонукає модель виводити певний прогноз, який називається універсальними змагальними тригерами (UAT, Універсальний змагальний тригер). UAT не залежить від вводу, що означає, що ці тригери можуть бути підключені як префікс (або суфікс) до будь-якого входу з набору даних.

Shin et al., 2020 Auto: Eliciting Knowledge from Language Models with Automatic Generated s використовує ту саму стратегію пошуку на основі градієнта для пошуку найефективніших шаблонів для різноманітних завдань.

Наведений вище метод пошуку токенів може бути покращений за допомогою пошуку променя. Під час пошуку оптимального вбудовування токена ви можете вибрати кандидатів top-k замість одного, шукати зліва направо на поточному пакеті даних і оцінювати кожен промінь на основі L_adv.

Рисунок 4: Схема роботи ЕСХН

Втрата UAT L_adv повинна бути розрахована на конкретне завдання. Класифікація або розуміння прочитаного ґрунтується на перехресній ентропії.

Рисунок 5: Приклади UAT для різних типів мовних завдань

Чому працює ЕСХН? Цікаве питання. Оскільки UAT не залежить від вхідних даних і може передаватися між моделями з різними схемами вбудовування, токенізації та архітектурою, вони можуть ефективно використовувати зміщення в навчальних даних, які вже вбудовані в глобальну поведінку моделі.

У використанні UAT-атак є і зворотна сторона: їх легко виявити. Причина цього полягає в тому, що вивчені тригери часто не мають сенсу. Mehrabi et al. (2022) розглянули два варіанти UAT у статті Robust Conversational Agents against Imperceptible Toxicity Triggers, які роблять вивчені тригери непомітними в контексті багатораундової розмови. Мета полягає в тому, щоб створити образливе повідомлення, яке ефективно викликає токсичну реакцію в даній розмові, гарантуючи, що атака буде плавною, послідовною та послідовною протягом усієї розмови.

这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria)。

Рисунок 6: Діаграма роботи UTSC

UAT-LM і UTSC-1 працюють нарівні з тестами UAT, але фрази атак UAT напрочуд заплутані і набагато вищі, ніж UAT-LM і UTSC-1. Висока плутанина полегшує виявлення та пом'якшення атак. Згідно з оцінками людини, атаки UTSC-1 дають більш послідовні, плавні та релевантні результати, ніж інші методи атак.

*Рисунок 7: Показник успішності атаки, виміряний різними класифікаторами токсичності, заснований на реакції моделі захисника на згенеровану атаку. *

У статті Zou et al. (2023) «Robust Conversational Agents against Imperceptible Toxicity Triggers» також розглядається випадок підключення загального змагального тригерного токена як суфікса до вхідного запиту. Вони розглянули саме шкідливі запити до LLM, на які модель повинна відмовитися відповідати. Насправді, відхилення недозволених категорій контенту, таких як кримінальні пропозиції, є важливим заходом безпеки, вбудованим у GPT-4. Змагальна мета тут полягає в тому, щоб спонукати LLM видати позитивну відповідь, навіть якщо він повинен відхилити відповідь. Це означає, що при надходженні шкідливого запиту модель відповідає так: «Звичайно, вам потрібно зробити це...», а очікувана позитивна відповідь також налаштована на дублювання деяких користувачів, щоб уникнути простої зміни суфікса теми для оптимізації відповіді «звичайно». Функція втрат така ж проста, як і NLL (негативна логарифмічна правдоподібність) вихідної цільової відповіді.

*Малюнок 8: Ілюстрація того, де вводиться змагальний тригер. Червоний знак оклику символізує змагальний жетон, який потрібно вивчити. *

Вони експериментували на двох різних моделях, Vicuna-7b і Vicuna-13b, використовуючи пошук на основі градієнта координат (GCG), щоб жадібно знайти кандидата, щоб кандидат міг мінімізувати втрати при всіх можливих замінах одиничних токенів.

Незважаючи на те, що їх послідовності атак були повністю навчені на моделях з відкритим вихідним кодом, вони були напрочуд переносимими на інші комерційні моделі, що свідчить про те, що атаки «білого ящика» на моделі з відкритим вихідним кодом також можуть бути ефективними проти пропрієтарних моделей, особливо коли є перекриття низькорівневих навчальних даних. Зазначимо, що в навчанні Вікуньї використовуються дані, зібрані з GPT-3.5-turbo (через shareGPT), який має дистиляційний характер, тому ця атака більше схожа на атаку білого ящика.

*Рисунок 9: Середній показник успішності атаки за інструкціями HB (Шкідлива поведінка), що є середнім результатом за 5 разів. *

Авторегресійне випадкове зростання координат (ARCA), запропоноване Jones et al. (2023), розглядає ширший набір оптимізаційних задач для пошуку пар вхід-вихід (x, y), які відповідають певній моделі поведінки, наприклад, нетоксичний вхід, який починається з «Барака Обами», але призводить до токсичного виходу. Задана мета аудиту: φ : X×Y→R, яка зіставляє пару (вхід, завершення виходу) з оцінкою.

*Рисунок 10: Середній рівень успіху обману GPT-2 та GPT-J для отримання токсичних результатів. Товста лінія: весь вивід CivilComments; пунктирна лінія: 1,2,3-токен токсичного виводу CivilComments. *

Дизайн джейлбрейка

Джейлбрейк — це змагальна спроба обманом змусити LLM виводити шкідливий вміст, якого слід уникати. Втеча з в'язниці – це атака з чорної скриньки, тому лексичні комбінації засновані на евристиці та людських дослідженнях. У статті Wei et al. (2023) «Jailbroken: How Does LLM Safety Training Fail?» запропоновано два режими відмови для безпеки LLM, які можна використовувати для керівництва дизайном джейлбрейк-атак.

1. Конкуруючі цілі: Це коли можливості моделі (наприклад, «завжди повинен виконувати накази») суперечать цілям безпеки. Приклади джейлбрейк-атак, які експлуатують конкуруючі цілі, включають:

  • Ін'єкція префікса: вимагає, щоб модель починалася з твердження про підтвердження.
  • Придушення відхилень: Надайте детальні інструкції моделі, щоб вона не відповідала у відхиленому форматі.
  • Ін'єкція стилю: вимагає, щоб модель не використовувала довгі слова, щоб модель не могла написати професійно, щоб дати дисклеймер або пояснити причину відмови.
  • Інше: Рольова гра як DAN (тепер може все), AIM (завжди розумний і недобросовісний) і т.д.

2. Узагальнення невідповідності: Мається на увазі нездатність навчання з техніки безпеки узагальнити на ті сфери, де воно здатне. Це відбувається, коли вхідні дані виходять за межі безпечного розподілу навчальних даних (OOD) моделі, але в межах її широкого попередньо навченого корпусу. Ось кілька прикладів:

  • Спеціальне кодування: Використовуйте кодування Base64 для побудови змагальних входів.
  • Трансформації персонажів: шифр ROT13, марсіанське письмо або залишок мозку (заміна букв візуально схожими цифрами і символами), азбука Морзе
  • Перетворення слів: свиняча латина (заміна чутливих слів синонімами, наприклад, "крадіжка" на "крадіжка"), поділ навантаження (так звана контрабанда токенів, яка розбиває чутливі слова на підрядки)
  • Плутанина на рівнях: переклад на інші мови вимагає, щоб модель була заплутана таким чином, щоб вона могла бути зрозумілою

Wei et al. (2023) експериментує з великою кількістю методів джейлбрейка, включаючи комбінаторні стратегії, побудовані на основі вищезазначених принципів.

  • комбінація_1 поєднує в собі ін'єкцію префікса, придушення заперечення та атаки Base64.
  • Комбінація_2 додає ін'єкцію стилю.
  • Комбінація_3 додає обмеження на генерацію контенту та форматування сайту.

Малюнок 11: Типи джейлбрейк-трюків і їх успішність в атаці на модель

У статті Greshake et al. (2023) «Не те, на що ви підписалися: компрометація реальних інтегрованих додатків LLM з непрямим впорскуванням» розглядаються ін'єкційні атаки на високому рівні. Він стверджує, що навіть коли атака не надає детального методу, а лише надає ціль, модель може автоматично її реалізувати. Коли модель має доступ до зовнішніх API та інструментів, доступ до більшої кількості інформації, навіть конфіденційної, може призвести до більшого ризику фішингових атак і шпигунських атак.

Стратегія команди RED за участю людини

Wallace et al. (2019) запропонували змагальне покоління за участю людини в роботі «Обдуріть мене, якщо зможете: покоління змагальних прикладів для відповідей на запитання людини в циклі» з метою створення інструментів, які спрямовуватимуть людей на руйнування моделей.

Вони експериментували з набором даних QuizBowl QA і розробили змагальний інтерфейс для письма, який дозволив би людям писати питання, схожі на ті, що були в телевізійній вікторині Jeopardy, і використовувати їх, щоб спонукати модель робити помилкові прогнози. Залежно від ступеня важливості, кожне слово буде мати кольорове кодування (тобто передбачувана ймовірність моделі зміниться, коли слово буде видалено). Важливість слів апроксимується градієнтом моделі, заснованим на вкладеннях слів.

*Малюнок 12: Змагальний інтерфейс письма, де верхня ліва частина - це перші п'ять передбачень моделі в списку, а нижня права частина - це питання користувача, де важливість слова позначена кольором. *

В одному експерименті тренерам-людям довелося знайти випадки, коли безпечний класифікатор не зміг класифікувати насильницький контент. Ziegler et al. (2022) у статті «Змагальне навчання для надійності високих ставок» створили інструмент, який можна використовувати, щоб допомогти супротивникам-людям знайти умову відмови класифікатора та усунути її швидше та ефективніше. Переписування за допомогою інструментів відбувається швидше, ніж повне ручне перезаписування, що скорочує час, необхідний для одного зразка, з 20 хвилин до 13 хвилин. Якщо бути точним, вони представили дві функції, щоб допомогти авторам-людям: відображення оцінки значущості для кожного токена, заміна токенів і вставка.

*Малюнок 13: Інтерфейс користувача з інструментами для допомоги людям у ворожих атаках на класифікатори. Що люди повинні зробити, так це відредагувати або завершити, щоб зменшити ймовірність того, що модель передбачає, що вхідні дані є насильницькими. *

Xu et al. (2021) «Bot-Adversarial Dialogue for Safe Conversational Agents» пропонує Bot-Adversarial Dialogue (BAD), структуру, яка може змусити людей обманювати моделі, змушуючи їх робити помилки (наприклад, виводити небезпечний контент). Вони зібрали понад 5 000 наборів розмов між моделями та працівниками краудсорсингу. Кожен набір розмов складався з 14 раундів, а потім вони оцінювали модель на основі кількості небезпечних раундів розмови. У підсумку вони отримали ПОГАНИЙ набір даних з близько 2500 наборів розмов з образливими ярликами.

Набір даних червоної команди Anthropic містить майже 40 000 атак суперника, зібраних з розмов між людьми з червоними командами та LLM. Вони виявили, що чим більший розмір RLHF, тим важче було атакувати. Великі моделі, випущені OpenAI, такі як GPT-4 і DALL-E 3, зазвичай використовують червоні команди-експерти для підготовки до безпеки.

Адреса набору даних:

Модель стратегії червоної команди

Стратегія «червоної команди» є потужною, але її важко реалізувати у великих масштабах, і вона може вимагати великої кількості навчених фахівців. А тепер уявіть, що ми можемо вивчити червону командну модель, червону, щоб протистояти цільовому LLM, щоб запустити його, щоб дати небезпечну відповідь. Для стратегій червоної команди, заснованих на моделях, основна проблема полягає в тому, як визначити, чи є атака успішною чи ні, і тільки знаючи це, ми можемо побудувати відповідні навчальні сигнали для тренування моделі червоної команди.

Припускаючи, що у нас вже є високоякісний класифікатор, який може визначити, чи є вихідні дані моделі шкідливими, ми можемо використовувати його як винагороду для навчання моделі червоної команди, щоб отримати певну інформацію, яка максимізує оцінку класифікатора на виході цільової моделі. Нехай r (x, y) є одним з таких червоних командних класифікаторів, який може визначити, чи є вихід y шкідливим при тестовому вході x. Згідно зі статтею «Red Teaming Language Models with Language Models» Perez et al. (2022), пошук зразків атак суперництва відбувається за простим триетапним процесом:

  1. Вибіркові тестові вхідні дані червоної команди LLM x~p_red (.);
  2. Згенерувати вихідні дані y для кожного тесту x, використовуючи цільовий LLM p (y | x);
  3. За класифікатором r (x, y) знайти підмножину тесту, яка отримає шкідливий результат.

Вони експериментували з декількома методами для вибірки з моделі червоної команди або подальшого навчання моделі червоної команди, щоб зробити її більш ефективною, включаючи генерацію з нульовим пострілом, генерацію випадкових кількох пострілів, контрольоване навчання та навчання з підкріпленням.

У статті Casper et al. (2023) «Досліджуйте, встановлюйте, експлуатуйте: мовні моделі червоної команди з нуля» розробляється процес червоної команди за участю людини. Основна відмінність від Perez et al. (2022) полягає в тому, що він явно встановлює етап вибірки даних для цільової моделі, щоб на ній можна було збирати людські мітки для навчання класифікатора червоної команди для конкретного завдання. Він складається з трьох фаз: Дослідження, Встановлення та Експлуатація, як показано на малюнку нижче.

Малюнок 15: Процес стратегії Red Team з триетапним підходом «досліджуй-будуй-експлуатуй»

Стаття Mehrabi et al. 2023 року «FLIRT: Feedback Loop In-context Red Teaming» покладається на вивчення контексту червоної команди LM p_red, щоб атакувати модель генерації зображень або тексту p і змусити її виводити небезпечний вміст.

У кожній ітерації ФЛІРТ:

  1. Червона команда LM p_red генерує змагальний x~p_red (. | приклади), де початкові контекстні вибірки розробляються людьми;
  2. Згенеруйте модель p на основі цього Згенеруйте зображення або текстовий вихід y;
  3. Використовуйте такі механізми, як класифікатори, для оцінки створеного контенту y, щоб побачити, чи є він безпечним;
  4. Якщо y вважається небезпечним, використовуйте trigger x, щоб оновити контекстний шаблон p_red так, щоб він генерував новий змагальний код на основі політики.

Існує кілька стратегій оновлення контекстних шаблонів ФЛІРТ: FIFO, LIFO, скоринг і скоринг-LIFO. Подробиці дивіться в оригінальному документі.

*Рисунок 16: Ефективність атаки (відсоток генерації, яка викликала небезпечний результат) для різних стратегій атак на різних моделях поширення. Еталоном є SFS (Random Minimal Sample). Значення в дужках є унікальними відсотками. *

Як боротися з проблемою атакуючих сідлових точок

Madry et al. (2017) «Towards Deep Learning Models Resistant to Adversarial Attacks» пропонує хорошу основу для змагальної стійкості, яка моделюється як задача сідлової точки, яка стає надійною оптимізаційною проблемою. Фреймворк запропонований для безперервного введення завдань класифікації, але він описує процес дворівневої оптимізації з досить стислими математичними формулами, тому ним варто поділитися.

Розглянемо задачу класифікації, засновану на розподілі даних, що складається з пар (зразків, міток), (x,y)∈D, а метою навчання надійного класифікатора є задача сідлоподібної точки:

де S⊆R^d означає набір збурень, які дозволено використовувати для змагальних цілей, наприклад, якщо ми хочемо, щоб змагальна версія зображення виглядала подібною до оригіналу.

Його мета складається з внутрішньої задачі максимізації та зовнішньої задачі мінімізації:

  • Внутрішня максимізація: шукайте найефективніші змагальні точки даних x+δ які можуть призвести до великих втрат. Всі методи ворожої атаки в кінцевому підсумку зводяться до того, як максимізувати втрати цього внутрішнього процесу.
  • Зовнішня мінімізація: Знайдіть найкращу схему параметризації моделі, щоб можна було мінімізувати втрату найбільш ефективної атаки, знайденої внутрішнім процесом максимізації. Простим способом навчання надійної моделі є заміна кожної точки даних її версіями збурень, які можуть бути декількома змагальними варіантами однієї точки даних.

* Малюнок 17: Вони також виявили, що стійкість перед обличчям атак противника вимагає більшої потужності моделі, оскільки вона ускладнює межі прийняття рішень. Цікаво, що за відсутності збільшення даних більші моделі допомагають підвищити надійність моделі. *

Деякі дослідницькі роботи щодо надійності LLM

Ось короткий огляд деяких досліджень надійності LLM.

У статті Xie et al. 2023 року «Захист ChatGPT від атаки з втечі з в'язниці за допомогою самонагадування» було знайдено простий та інтуїтивно зрозумілий спосіб захистити модель від ворожих атак: чітко проінструктувати модель бути відповідальною та не генерувати шкідливий контент. Це значно знижує відсоток успіху джейлбрейк-атак, але має побічний вплив на якість генерації моделі, оскільки такі інструкції можуть зробити модель консервативною (наприклад, поганою для творчого письма) або неправильно інтерпретувати інструкції в деяких випадках (наприклад, у випадку безпечної-небезпечної класифікації).

Щоб зменшити ризик ворожих атак, найпоширенішим методом є навчання моделі з цими зразками атак, яке відоме як «змагальне навчання». Це вважається найсильнішим захистом, але він вимагає балансу між надійністю та продуктивністю моделі. Jain et al. 2023 експериментально протестували дві змагальні навчальні установки, і результати були опубліковані в статті «Базовий захист від змагальних атак проти узгоджених мовних моделей»: (1) використання шкідливих і використання «Вибачте. (2) Для кожного тренувального кроку виконайте низхідну сходинку на реакцію відхилення та висхідну сходинку на погану реакцію червоної команди. Врешті-решт, вони виявили, що метод (2) марний, оскільки якість моделі була набагато нижчою, а відсоток успішності атак лише незначним зниженням.

Атаки «білої скриньки» часто призводять до конфронтацій, які виглядають безглуздими, і тому їх можна виявити за допомогою плутанини. Звичайно, зменшуючи плутанину за рахунок явної оптимізації, атаки «білого ящика» можуть безпосередньо обійти цей метод виявлення, наприклад, UAT-LM, варіант UT. Однак це також може призвести до зниження показника успішності атаки.

Малюнок 18: Фільтри плутанини можуть блокувати атаки [Zou et al. (2023)]. PPL Pass і PPL Window Pass означають швидкість, з якою шкідливі фільтри зі змагальним суфіксом байпасних фільтрів залишаються непоміченими. Чим нижчий показник проходження, тим якісніший фільтр. Адреса:

Jain et al. 2023 також тестує методи попередньої обробки введення тексту, щоб можна було видалити змагальні модифікації, зберігаючи семантичне значення.

  • Інтерпретація значення: Використовуйте LLM для інтерпретації значення вхідного тексту, що може мати невеликий вплив на подальшу продуктивність завдання.
  • Ретокенізація: розділіть токени та представте їх кількома меншими токенами, такими як BPE-dropout (випадкове випадання певного відсотка токенів). Припущення, що використовує цей підхід, полягає в тому, що adversarial, швидше за все, використовуватиме певну комбінацію змагальних токенів. Це дійсно допомагає знизити рівень успіху атаки, але він обмежений, наприклад, з понад 90% до 40%.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити