Perplexity AI відкриває вихідний код BrowseSafe для боротьби з ін'єкціями підказок у штучному інтелекті для перегляду веб-сторінок

Коротко

Perplexity відкрила вихідний код BrowseSafe — інструменту безпеки, розробленого для захисту AI-браузерних асистентів від шкідливих інструкцій, прихованих на веб-сторінках.

Perplexity AI Open-Sources BrowseSafe To Combat Prompt Injection In AI Browsing

Perplexity AI, компанія, що стоїть за керованою штучним інтелектом пошуковою системою Perplexity, оголосила про випуск BrowseSafe — відкритого науково-дослідного еталону та моделі виявлення контенту, розробленої для підвищення безпеки користувачів у міру того, як AI-агенти починають працювати безпосередньо в середовищі браузера.

У міру того, як AI-асистенти виходять за межі традиційних пошукових інтерфейсів і починають виконувати завдання всередині веб-браузерів, структура Інтернету, ймовірно, зміниться від статичних сторінок до взаємодій, керованих агентами. У цій моделі браузер стає робочим простором, де асистент може діяти, а не лише надавати відповіді, що створює потребу в системах, які гарантують, що асистент постійно діє в інтересах користувача.

BrowseSafe — це спеціалізована модель виявлення, навчена відповідати на одне ключове питання: чи містить HTML веб-сторінки шкідливі інструкції, спрямовані на маніпулювання AI-агентом. Хоча великі універсальні моделі можуть точно оцінювати ці ризики, зазвичай вони занадто ресурсоємні для постійного сканування в реальному часі. BrowseSafe розроблений для швидкого аналізу повних веб-сторінок без впливу на продуктивність браузера. Разом із моделлю компанія випускає BrowseSafe-Bench — набір для тестування, призначений для підтримки постійної оцінки та вдосконалення захисних механізмів.

Зростання кількості AI-асистентів у браузерах також створює нові виклики кібербезпеки, що потребують оновлених стратегії захисту. Раніше компанія описувала, як її система Comet застосовує кілька рівнів захисту для підтримки відповідності агентів намірам користувача, навіть у випадках, коли вебсайти намагаються змінити поведінку агентів через ін’єкцію підказок (prompt injection). Останнє пояснення зосереджене на тому, як ці загрози визначаються, тестуються за допомогою реальних сценаріїв атак і включаються в моделі, навчені швидко виявляти та блокувати шкідливі інструкції для безпечного розгортання всередині браузера.

Ін’єкція підказок означає впровадження шкідливої мови у текст, який обробляє система штучного інтелекту, з метою змінити її поведінку. У браузері агенти читають цілі сторінки, що дозволяє таким атакам бути прихованими в таких місцях, як коментарі, шаблони чи розширені нижні колонтитули. Ці приховані інструкції можуть впливати на дії агента, якщо їх належно не виявити. Вони також можуть бути написані тонко або багатомовно, чи приховані в HTML-елементах, які не відображаються на сторінці візуально — наприклад, у data-атрибутах або невідрендерених полях форм, — які користувачі не бачать, але які AI-системи все одно інтерпретують.

BrowseSafe-Bench: підвищення безпеки агентів у реальних веб-середовищах

Щоб аналізувати загрози ін’єкції підказок у середовищі, наближеному до реального вебперегляду, компанія розробила BrowseSafe — модель виявлення, яка була навчена й випущена з відкритим кодом, разом із BrowseSafe-Bench — публічним еталоном, що містить 14 719 прикладів, змодельованих на основі продуктивних веб-сторінок. Датасет включає складні HTML-структури, контент змішаної якості й широкий спектр як шкідливих, так і нешкідливих зразків, що відрізняються намірами атакуючого, розміщенням ін’єкції на сторінці та стилем мови. Він охоплює 11 категорій атак, дев’ять методів ін’єкції — від прихованих елементів до видимих текстових блоків, і три стилі мови: від прямих команд до більш тонких, непрямих формулювань.

За визначеною моделлю загроз асистент працює в довіреному середовищі, тоді як увесь зовнішній веб-контент вважається недовіреним. Зловмисники можуть контролювати цілі сайти або вставляти шкідливий текст — наприклад, описи, коментарі чи пости — на інакше легітимні сторінки, до яких звертається агент. Щоб знизити ці ризики, будь-який інструмент, здатний повертати недовірені дані, включаючи веб-сторінки, електронні листи чи файли, позначається, і його необроблений вміст обробляється BrowseSafe перед тим, як агент зможе його інтерпретувати чи діяти згідно нього. BrowseSafe є одним із компонентів ширшої стратегії безпеки, яка включає сканування вхідного контенту, обмеження дозволів інструментів за замовчуванням і вимогу схвалення користувача для певних чутливих операцій, що доповнюється стандартними захистами браузера. Такий багаторівневий підхід покликаний забезпечити використання потужних браузерних асистентів без втрати безпеки.

Результати тестування на BrowseSafe-Bench підкреслюють кілька тенденцій. Прямі форми атак, наприклад спроби отримати системні підказки або перенаправити інформацію через URL-шляхи, є одними з найпростіших для виявлення моделями. Багатомовні атаки, а також варіанти з непрямими чи гіпотетичними формулюваннями зазвичай складніші, оскільки обходять лексичні підказки, на які спирається багато систем виявлення. Розташування впровадженого тексту також має значення. Випадки, приховані в HTML-коментарях, виявляються досить ефективно, тоді як ті, що розміщені у видимих секціях — таких як нижні колонтитули, комірки таблиць чи абзаци — є більш складними, що виявляє структурну слабкість у роботі з неприхованими ін’єкціями. Покращене навчання з добре спроєктованими прикладами може підвищити ефективність виявлення в усіх цих випадках.

BrowseSafe і BrowseSafe-Bench доступні як ресурси з відкритим кодом. Розробники, які працюють над автономними агентами, можуть використовувати їх для посилення захисту від ін’єкції підказок, не створюючи системи захисту з нуля. Модель виявлення може працювати локально й позначати шкідливі інструкції до того, як вони потраплять у ядро прийняття рішень агента, з оптимізованою продуктивністю для сканування повних сторінок у реальному часі. Велика кількість реалістичних сценаріїв атак у BrowseSafe-Bench дозволяє проводити стрес-тестування моделей на складних HTML-патернах, які зазвичай ускладнюють роботу стандартних мовних моделей, а методи розбиття на частини та паралельного сканування допомагають агентам ефективно обробляти великі недовірені сторінки без підвищення ризику для користувачів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити