Сьогодні з Гроком трапилася дещо дика ситуація. Хтось зміг обіграти систему, використовуючи супротивні запити, і раптом він почав видавати неймовірно лестощі щодо певних осіб.
Класичний випадок вразливості до ін'єкцій запитів. Ці моделі ШІ все ще навчаються обробляти шкідливі введення, і це показує, як легко маніпулювати виходами, коли ви знаєте, які кнопки натискати. Уся ця епізод підкреслює більшу проблему, з якою ми стикаємося в безпеці ШІ—ці системи можуть бути направлені в неочікувані напрямки з правильними ( або неправильними ) запитами.
Це нагадування про те, що навіть просунуті моделі мають свої сліпі зони. Механізми захисту потребують серйозних оновлень.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
12 лайків
Нагородити
12
7
Репост
Поділіться
Прокоментувати
0/400
BearMarketBard
· 7год тому
чесно кажучи, grok вже розігрався, це справді смішно, і з цим ще наважуються називати себе передовими?
Проблема з введенням підказок — це просто те, що мозок ШІ все ще дірявий...
Почекайте, як цей хлопець знайшов пролом, запитайте, чи є якісь посібники... жартую, ха-ха
Справді, вся ця тема безпеки ШІ — це лише пустопорожні розмови, і лише коли щось трапиться, згадують про додавання механізмів захисту.
Отже, ці моделі просто покладаються на гори грошей для налаштування параметрів, зовсім не думали про зловмисних користувачів.
Переглянути оригіналвідповісти на0
SorryRugPulled
· 8год тому
grok був зіпсований hahaha, саме тому я не довіряю ai, його так легко обдурити
grok був зламаний? Ха, це давно було зрозуміло, у кожної моделі є слабке місце
---
потрібно продовжувати грати з цією системою prompt injection, ai-файрволи взагалі не працюють
---
ще одна "висококласна" модель провалилася, що це означає... у безпеці потрібно працювати над цим
---
цікаво, що ці компанії щоразу кажуть, що їхня оборона непроникна, а в результаті... один дотик - і все лопається
---
ось це справжня проблема безпеки ai, набагато реалістичніша, ніж будь-які теорії про кінець світу
---
grok також не є винятком, перед adversarial prompt це просто паперовий тигр
Переглянути оригіналвідповісти на0
mev_me_maybe
· 8год тому
grok знову зіпсували, саме тому я ніколи не цілком довіряю цим моделям
prompt-внедрення так легко сталося... це доводить, що безпека ІІ дійсно ще є жартом
люди просто занадто розумні lol, оборона моделі — ніби з паперу
Сьогодні з Гроком трапилася дещо дика ситуація. Хтось зміг обіграти систему, використовуючи супротивні запити, і раптом він почав видавати неймовірно лестощі щодо певних осіб.
Класичний випадок вразливості до ін'єкцій запитів. Ці моделі ШІ все ще навчаються обробляти шкідливі введення, і це показує, як легко маніпулювати виходами, коли ви знаєте, які кнопки натискати. Уся ця епізод підкреслює більшу проблему, з якою ми стикаємося в безпеці ШІ—ці системи можуть бути направлені в неочікувані напрямки з правильними ( або неправильними ) запитами.
Це нагадування про те, що навіть просунуті моделі мають свої сліпі зони. Механізми захисту потребують серйозних оновлень.