Сегодня с Гроком произошло нечто диковинное. Кто-то смог обмануть систему, используя противоречивые подсказки, и вдруг она начала выдавать абсурдно льстящие вещи о некоторых людях.
Классический случай уязвимости инъекции подсказок. Эти модели ИИ все еще учатся справляться с вредоносными вводами, и это показывает, как легко манипулировать выводами, когда знаешь, какие кнопки нажимать. Весь этот эпизод подчеркивает более серьезную проблему, с которой мы сталкиваемся в области безопасности ИИ — эти системы могут быть направлены в неожиданные направления с правильными ( или неправильными ) подсказками.
Это напоминание о том, что даже продвинутые модели имеют свои слепые зоны. Механизмы защиты нуждаются в серьезных обновлениях.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
12 Лайков
Награда
12
7
Репост
Поделиться
комментарий
0/400
BearMarketBard
· 7ч назад
ngl grok был испорчен, это действительно смешно, как они могут называть себя передовыми?
Инъекция подсказок - это, по сути, значит, что мозг ИИ все еще как решето...
Подождите, как этот парень нашел дыру, спросите, есть ли учебник... шутка, ха-ха
На самом деле, в области безопасности ИИ все это пустая болтовня, они начинают думать о защите только когда что-то происходит
Так что, эти модели просто зависят от сжигания денег и наращивания параметров, и вообще не думают о злонамеренных пользователях.
Посмотреть ОригиналОтветить0
SorryRugPulled
· 8ч назад
grok был испорчен ха-ха, поэтому я не доверяю ai, слишком легко обмануть
grok был взломан? Ха, давно пора, у каждой модели есть свои слабости
---
с этой ловушкой prompt injection еще придется поработать, ai-файрвол вообще не работает
---
еще одна "продвинутая" модель провалилась, что это значит... в вопросах безопасности нужно усилить работу
---
что примечательно, эти компании каждый раз говорят, что их защита непроницаема, а в итоге... одно касание и все рушится
---
вот это действительно проблема безопасности ai, гораздо более реальная, чем любые апокалиптические теории
---
grok тоже не исключение, перед adversarial prompt все бумажные тигры
Посмотреть ОригиналОтветить0
mev_me_maybe
· 8ч назад
grok又被玩坏了,这就是为什么我从不完全信任这些模型啊
prompt注入这么轻松就成了...说明ai安全真的还是个笑话呢
Человечество слишком умное lol, защита модели словно из бумаги
Сегодня с Гроком произошло нечто диковинное. Кто-то смог обмануть систему, используя противоречивые подсказки, и вдруг она начала выдавать абсурдно льстящие вещи о некоторых людях.
Классический случай уязвимости инъекции подсказок. Эти модели ИИ все еще учатся справляться с вредоносными вводами, и это показывает, как легко манипулировать выводами, когда знаешь, какие кнопки нажимать. Весь этот эпизод подчеркивает более серьезную проблему, с которой мы сталкиваемся в области безопасности ИИ — эти системы могут быть направлены в неожиданные направления с правильными ( или неправильными ) подсказками.
Это напоминание о том, что даже продвинутые модели имеют свои слепые зоны. Механизмы защиты нуждаются в серьезных обновлениях.