Perplexity AI Membuka Sumber BrowseSafe untuk Melawan Prompt Injection dalam Penjelajahan AI

2025-12-04 13:50:05

Singkatnya

Perplexity merilis BrowseSafe sebagai open source, sebuah alat keamanan yang dirancang untuk melindungi asisten browser AI dari instruksi berbahaya yang tersembunyi di halaman web.

Perplexity AI, perusahaan di balik mesin pencari berbasis AI Perplexity, mengumumkan peluncuran BrowseSafe, sebuah tolok ukur penelitian terbuka dan model deteksi konten yang dirancang untuk meningkatkan keamanan pengguna seiring dengan mulai beroperasinya agen AI langsung di lingkungan browser.

Seiring asisten AI bergerak melampaui antarmuka pencarian tradisional dan mulai melakukan tugas di dalam browser web, struktur internet diperkirakan akan bergeser dari halaman statis ke interaksi yang digerakkan oleh agen. Dalam model ini, browser menjadi ruang kerja di mana asisten dapat mengambil tindakan, bukan hanya memberikan jawaban, sehingga menciptakan kebutuhan akan sistem yang memastikan asisten selalu bertindak demi kepentingan pengguna.

BrowseSafe adalah model deteksi khusus yang dilatih untuk mengevaluasi satu pertanyaan inti: apakah HTML suatu halaman web mengandung instruksi berbahaya yang ditujukan untuk memanipulasi agen AI. Sementara model besar serba guna dapat menilai risiko ini secara akurat, biasanya model tersebut terlalu boros sumber daya untuk pemindaian real-time secara terus-menerus. BrowseSafe dirancang untuk menganalisis halaman web secara lengkap dengan cepat tanpa memengaruhi kinerja browser. Bersamaan dengan model ini, perusahaan juga merilis BrowseSafe-Bench, sebuah rangkaian pengujian yang bertujuan mendukung evaluasi dan peningkatan mekanisme pertahanan secara berkelanjutan.

Meningkatnya penggunaan penelusuran berbasis AI juga memperkenalkan tantangan keamanan siber baru yang memerlukan strategi perlindungan yang diperbarui. Sebelumnya, perusahaan telah menguraikan bagaimana sistem Comet mereka menerapkan beberapa lapisan pertahanan untuk menjaga agar agen tetap selaras dengan niat pengguna, bahkan ketika situs web mencoba mengubah perilaku agen melalui prompt injection. Penjelasan terbaru difokuskan pada bagaimana ancaman ini didefinisikan, diuji menggunakan skenario serangan dunia nyata, serta diintegrasikan ke dalam model yang dilatih untuk mengidentifikasi dan memblokir instruksi berbahaya dengan cukup cepat agar dapat diterapkan secara aman di dalam browser.

Prompt injection merujuk pada bahasa berbahaya yang disisipkan ke dalam teks yang diproses oleh sistem AI, dengan tujuan mengarahkan ulang perilaku sistem tersebut. Dalam pengaturan browser, agen membaca seluruh halaman, memungkinkan serangan semacam itu disisipkan di area seperti komentar, template, atau footer yang diperluas. Instruksi tersembunyi ini dapat memengaruhi tindakan agen jika tidak terdeteksi dengan baik. Mereka juga bisa ditulis secara halus atau dalam format multibahasa, atau disembunyikan di elemen HTML yang tidak muncul secara visual di halaman—seperti atribut data atau field form yang tidak dirender—yang tidak terlihat oleh pengguna tetapi tetap diinterpretasikan oleh sistem AI.

BrowseSafe-Bench: Meningkatkan Keamanan Agen di Lingkungan Web Dunia Nyata

Untuk menganalisis ancaman prompt injection dalam lingkungan yang mirip dengan penelusuran dunia nyata, perusahaan mengembangkan BrowseSafe, sebuah model deteksi yang telah dilatih dan dirilis sebagai open source, bersama dengan BrowseSafe-Bench, tolok ukur publik yang berisi 14.719 contoh yang dimodelkan berdasarkan halaman web produksi. Dataset ini mencakup struktur HTML yang kompleks, konten dengan kualitas campuran, dan beragam contoh berbahaya maupun tidak berbahaya yang berbeda berdasarkan niat penyerang, penempatan instruksi yang disuntikkan dalam halaman, dan gaya bahasa. Dataset ini mencakup 11 kategori serangan, sembilan metode injeksi mulai dari elemen tersembunyi hingga blok teks yang terlihat, dan tiga gaya bahasa, dari perintah langsung hingga frasa yang lebih halus dan tidak langsung.

Dalam model ancaman yang didefinisikan, asisten beroperasi di lingkungan yang tepercaya, sementara semua konten web eksternal diperlakukan sebagai tidak tepercaya. Pelaku kejahatan dapat mengendalikan seluruh situs atau menyisipkan teks berbahaya—seperti deskripsi, komentar, atau postingan—ke dalam halaman yang sebenarnya sah dan diakses oleh agen. Untuk mengurangi risiko ini, alat apa pun yang dapat mengembalikan data tidak tepercaya, termasuk halaman web, email, atau file, akan ditandai, dan output mentahnya diproses oleh BrowseSafe sebelum agen dapat menginterpretasikan atau menindaklanjutinya. BrowseSafe berfungsi sebagai salah satu komponen dari strategi keamanan yang lebih luas, termasuk pemindaian konten yang masuk, membatasi izin alat secara default, serta mewajibkan persetujuan pengguna untuk operasi sensitif tertentu, yang dilengkapi dengan perlindungan browser standar. Pendekatan berlapis ini dimaksudkan untuk mendukung penggunaan asisten berbasis browser yang canggih tanpa mengorbankan keamanan.

Hasil pengujian pada BrowseSafe-Bench menyoroti beberapa tren. Bentuk serangan langsung, seperti upaya mengekstrak sistem prompt atau mengalihkan informasi melalui jalur URL, merupakan yang paling mudah dideteksi oleh model. Serangan multibahasa, serta versi yang ditulis dengan frasa tidak langsung atau hipotetis, cenderung lebih sulit karena menghindari petunjuk leksikal yang banyak diandalkan oleh sistem deteksi. Lokasi teks yang disuntikkan juga berperan. Kasus yang disembunyikan dalam komentar HTML terdeteksi dengan cukup efektif, sedangkan yang ditempatkan di bagian yang terlihat seperti footer, sel tabel, atau paragraf lebih menantang, mengungkap kelemahan struktural dalam penanganan injeksi non-tersembunyi. Pelatihan yang lebih baik dengan contoh yang dirancang secara cermat dapat meningkatkan performa deteksi di semua kasus ini.

BrowseSafe dan BrowseSafe-Bench tersedia sebagai sumber terbuka. Pengembang yang bekerja pada agen otonom dapat menggunakannya untuk memperkuat pertahanan terhadap prompt injection tanpa harus membangun sistem perlindungan sendiri. Model deteksi ini dapat dijalankan secara lokal dan menandai instruksi berbahaya sebelum mencapai lapisan pengambilan keputusan inti agen, dengan performa yang dioptimalkan untuk memindai halaman penuh secara real-time. Kumpulan besar skenario serangan realistis dari BrowseSafe-Bench menawarkan sarana untuk menguji ketahanan model terhadap pola HTML kompleks yang biasanya menghambat model bahasa standar, sementara teknik chunking dan pemindaian paralel membantu agen memproses halaman besar yang tidak tepercaya secara efisien tanpa meningkatkan risiko bagi pengguna.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.