👀 家人們,每天看行情、刷大佬觀點,卻從來不開口說兩句?你的觀點可能比你想的更有價值!
廣場新人 & 回歸福利正式上線!不管你是第一次發帖還是久違回歸,我們都直接送你獎勵!🎁
每月 $20,000 獎金等你來領!
📅 活動時間: 長期有效(月底結算)
💎 參與方式:
用戶需爲首次發帖的新用戶或一個月未發帖的回歸用戶。
發帖時必須帶上話題標籤: #我在广场发首帖 。
內容不限:幣圈新聞、行情分析、曬單吐槽、幣種推薦皆可。
💰 獎勵機制:
必得獎:發帖體驗券
每位有效發帖用戶都可獲得 $50 倉位體驗券。(注:每月獎池上限 $20,000,先到先得!如果大家太熱情,我們會繼續加碼!)
進階獎:發帖雙王爭霸
月度發帖王: 當月發帖數量最多的用戶,額外獎勵 50U。
月度互動王: 當月帖子互動量(點讚+評論+轉發+分享)最高的用戶,額外獎勵 50U。
📝 發帖要求:
帖子字數需 大於30字,拒絕純表情或無意義字符。
內容需積極健康,符合社區規範,嚴禁廣告引流及違規內容。
💡 你的觀點可能會啓發無數人,你的第一次分享也許就是成爲“廣場大V”的起點,現在就開始廣場創作之旅吧!
Perplexity AI 開源 BrowseSafe 以對抗 AI 瀏覽中的提示注入
重點摘要
Perplexity 開源了 BrowseSafe,一款旨在保護 AI 瀏覽器助手免受網頁中隱藏的惡意指令攻擊的安全工具。
Perplexity AI,即 AI 驅動的 Perplexity 搜尋引擎背後的公司,宣布推出 BrowseSafe,一個開放研究基準和內容偵測模型,旨在於 AI 代理開始直接在瀏覽器環境中運作之際提升用戶安全性。
隨著 AI 助手超越傳統搜尋介面,開始在網頁瀏覽器內執行各種任務,網際網路的結構預計將從靜態頁面轉變為以代理為主的互動模式。在這種模型中,瀏覽器成為助手可以採取行動的工作區,而非僅僅提供答案,因此需要確保助手始終遵循用戶利益的系統。
BrowseSafe 是一個專門訓練的偵測模型,核心目標是評估網頁 HTML 是否含有旨在操控 AI 代理的有害指令。雖然大型通用模型能準確評估這些風險,但通常資源消耗過大,不適合持續即時掃描。BrowseSafe 設計用於快速分析完整網頁,且不影響瀏覽器效能。公司同時推出 BrowseSafe-Bench,一套測試套件,旨在持續評估及改進防禦機制。
AI 驅動瀏覽的興起也帶來新的網路安全挑戰,需採用更新的保護策略。該公司此前曾介紹其 Comet 系統如何應用多層防禦,確保代理與用戶意圖一致,即使網站嘗試通過提示注入改變代理行為亦然。最新說明則聚焦於這些威脅的定義、如何以真實攻擊場景測試,以及如何將其納入用於快速識別並阻擋有害指令的訓練模型中,以確保能安全部署於瀏覽器內。
提示注入指的是將惡意語言插入 AI 系統處理的文本中,目的是重定向系統行為。在瀏覽器情境下,代理會閱讀整個頁面,使這類攻擊可嵌入於評論、模板或長篇頁腳等區塊。這些隱藏指令若未被正確偵測,可能影響代理行為。它們也可能以微妙或多語種格式書寫,或隱藏於 HTML 中未於頁面顯示的元素,如資料屬性或未渲染的表單欄位,這些內容用戶看不到,但 AI 系統仍會解析。
BrowseSafe-Bench:推進真實網路環境中的代理安全
為了在近似實際瀏覽環境中分析提示注入威脅,該公司開發並開源了 BrowseSafe 偵測模型與 BrowseSafe-Bench 公開基準,內含 14,719 個模擬實際網頁的案例。資料集涵蓋複雜的 HTML 結構、品質參差不齊的內容,以及廣泛多樣的惡意與良性樣本,涵蓋攻擊者意圖、指令注入位置及語言風格的不同。它包含 11 種攻擊類型、9 種注入方式(從隱藏元素到可見文本區塊)、以及 3 種語言風格(從直接指令到更隱晦的間接表述)。
根據定義的威脅模型,助手於可信環境中運作,而所有外部網頁內容均視為不可信。惡意行為者可能控制整個網站,或將有害文本(如描述、評論或貼文)插入代理存取的合法頁面。為降低這些風險,任何可能返回不可信資料的工具,包括網頁、電子郵件或檔案,都會被標記,其原始輸出需經 BrowseSafe 處理後,代理才能解析或執行。BrowseSafe 是更廣泛安全策略的一環,該策略還包括掃描進入內容、預設限制工具權限,以及對敏感操作需用戶核准,並輔以標準瀏覽器保護。這種多層防禦方法旨在確保強大瀏覽器助手的安全使用。
BrowseSafe-Bench 的測試結果揭示數個趨勢。直接攻擊形式(如試圖提取系統提示或透過 URL 路徑重定向資訊)最易被模型偵測。多語種攻擊及間接或假設性表述風格則較難偵測,因迴避了許多偵測系統依賴的詞彙線索。指令注入位置亦有影響。隱藏於 HTML 註解的案例偵測效果較好,反之若出現在頁腳、表格儲存格或段落等可見區塊則更具挑戰,顯示系統處理非隱藏注入時的結構性弱點。透過精心設計的訓練樣本可提升這些情境下的偵測表現。
BrowseSafe 與 BrowseSafe-Bench 均以開源資源形式提供。開發自動化代理的開發者可利用這些工具強化對提示注入的防禦,無需自行建構保護系統。偵測模型可在本地執行,於指令進入代理決策層前即時標記有害內容,其效能已針對即時掃描完整頁面最佳化。BrowseSafe-Bench 的大量真實攻擊情境可幫助模型針對複雜 HTML 模式進行壓力測試,這些模式通常會使標準語言模型失效,而分塊與平行掃描技術則協助代理有效處理大型不可信頁面,降低用戶風險。