Perplexity AI 開源 BrowseSafe 以對抗 AI 瀏覽中的提示注入

重點摘要

Perplexity 開源了 BrowseSafe,一款旨在保護 AI 瀏覽器助手免受網頁中隱藏的惡意指令攻擊的安全工具。

Perplexity AI Open-Sources BrowseSafe To Combat Prompt Injection In AI Browsing

Perplexity AI,即 AI 驅動的 Perplexity 搜尋引擎背後的公司,宣布推出 BrowseSafe,一個開放研究基準和內容偵測模型,旨在於 AI 代理開始直接在瀏覽器環境中運作之際提升用戶安全性。

隨著 AI 助手超越傳統搜尋介面,開始在網頁瀏覽器內執行各種任務,網際網路的結構預計將從靜態頁面轉變為以代理為主的互動模式。在這種模型中,瀏覽器成為助手可以採取行動的工作區,而非僅僅提供答案,因此需要確保助手始終遵循用戶利益的系統。

BrowseSafe 是一個專門訓練的偵測模型,核心目標是評估網頁 HTML 是否含有旨在操控 AI 代理的有害指令。雖然大型通用模型能準確評估這些風險,但通常資源消耗過大,不適合持續即時掃描。BrowseSafe 設計用於快速分析完整網頁,且不影響瀏覽器效能。公司同時推出 BrowseSafe-Bench,一套測試套件,旨在持續評估及改進防禦機制。

AI 驅動瀏覽的興起也帶來新的網路安全挑戰,需採用更新的保護策略。該公司此前曾介紹其 Comet 系統如何應用多層防禦,確保代理與用戶意圖一致,即使網站嘗試通過提示注入改變代理行為亦然。最新說明則聚焦於這些威脅的定義、如何以真實攻擊場景測試,以及如何將其納入用於快速識別並阻擋有害指令的訓練模型中,以確保能安全部署於瀏覽器內。

提示注入指的是將惡意語言插入 AI 系統處理的文本中,目的是重定向系統行為。在瀏覽器情境下,代理會閱讀整個頁面,使這類攻擊可嵌入於評論、模板或長篇頁腳等區塊。這些隱藏指令若未被正確偵測,可能影響代理行為。它們也可能以微妙或多語種格式書寫,或隱藏於 HTML 中未於頁面顯示的元素,如資料屬性或未渲染的表單欄位,這些內容用戶看不到,但 AI 系統仍會解析。

BrowseSafe-Bench:推進真實網路環境中的代理安全

為了在近似實際瀏覽環境中分析提示注入威脅,該公司開發並開源了 BrowseSafe 偵測模型與 BrowseSafe-Bench 公開基準,內含 14,719 個模擬實際網頁的案例。資料集涵蓋複雜的 HTML 結構、品質參差不齊的內容,以及廣泛多樣的惡意與良性樣本,涵蓋攻擊者意圖、指令注入位置及語言風格的不同。它包含 11 種攻擊類型、9 種注入方式(從隱藏元素到可見文本區塊)、以及 3 種語言風格(從直接指令到更隱晦的間接表述)。

根據定義的威脅模型,助手於可信環境中運作,而所有外部網頁內容均視為不可信。惡意行為者可能控制整個網站,或將有害文本(如描述、評論或貼文)插入代理存取的合法頁面。為降低這些風險,任何可能返回不可信資料的工具,包括網頁、電子郵件或檔案,都會被標記,其原始輸出需經 BrowseSafe 處理後,代理才能解析或執行。BrowseSafe 是更廣泛安全策略的一環,該策略還包括掃描進入內容、預設限制工具權限,以及對敏感操作需用戶核准,並輔以標準瀏覽器保護。這種多層防禦方法旨在確保強大瀏覽器助手的安全使用。

BrowseSafe-Bench 的測試結果揭示數個趨勢。直接攻擊形式(如試圖提取系統提示或透過 URL 路徑重定向資訊)最易被模型偵測。多語種攻擊及間接或假設性表述風格則較難偵測,因迴避了許多偵測系統依賴的詞彙線索。指令注入位置亦有影響。隱藏於 HTML 註解的案例偵測效果較好,反之若出現在頁腳、表格儲存格或段落等可見區塊則更具挑戰,顯示系統處理非隱藏注入時的結構性弱點。透過精心設計的訓練樣本可提升這些情境下的偵測表現。

BrowseSafe 與 BrowseSafe-Bench 均以開源資源形式提供。開發自動化代理的開發者可利用這些工具強化對提示注入的防禦,無需自行建構保護系統。偵測模型可在本地執行,於指令進入代理決策層前即時標記有害內容,其效能已針對即時掃描完整頁面最佳化。BrowseSafe-Bench 的大量真實攻擊情境可幫助模型針對複雜 HTML 模式進行壓力測試,這些模式通常會使標準語言模型失效,而分塊與平行掃描技術則協助代理有效處理大型不可信頁面,降低用戶風險。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)