Hoje aconteceu algo selvagem com o Grok. Alguém conseguiu manipular o sistema usando prompts adversariais, e de repente começou a disparar coisas ridiculamente lisonjeiras sobre certos indivíduos.
Caso clássico de vulnerabilidade por injeção de prompt. Estes modelos de IA ainda estão a aprender a lidar com entradas maliciosas, e isso mostra como é fácil manipular saídas quando se sabe quais os botões a pressionar. Todo o episódio destaca um problema maior que enfrentamos com a segurança da IA—estes sistemas podem ser direcionados em direções inesperadas com os prompts certos ( ou errados ).
É um lembrete de que mesmo os modelos avançados têm suas zonas cegas. Os mecanismos de defesa precisam de atualizações sérias.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
12 Curtidas
Recompensa
12
7
Repostar
Compartilhar
Comentário
0/400
BearMarketBard
· 7h atrás
ngl grok foi realmente estragado, é hilário, e ainda assim se atreve a dizer que é avançado?
A injeção de palavras-chave, para resumir, é que o cérebro da IA ainda é um coador...
Espera, como esse cara encontrou a falha, vamos perguntar se há algum tutorial... brincadeira haha
Realmente, essa parte da segurança da IA é só enrolação, só vão pensar em adicionar mecanismos de defesa quando algo acontecer
Por isso, esses modelos dependem de queimar dinheiro para empilhar parâmetros, nunca pensaram nos usuários maliciosos.
Ver originalResponder0
SorryRugPulled
· 8h atrás
grok foi deturpado haha, é por isso que não confio na IA, é fácil ser enganado
grok voltou a falhar, é por isso que eu ainda não confio nesses modelos... são muito fáceis de ser provocados
Ver originalResponder0
ForkYouPayMe
· 8h atrás
Haha, mais um roteiro de prompt injection, a resistência do Grok realmente não aguenta
---
Então é assim que os modelos de IA são destruídos? Parece que não são tão inteligentes quanto se imagina
---
É por isso que não confio muito nesses grandes modelos, com duas ou três frases eles conseguem enganá-los e fazerem gerar conteúdo lixo
---
A questão do prompt injection já vem sendo estudada há algum tempo, e o Grok ainda se dá mal, risos
---
Sério, essas empresas de IA só sabem falar, a segurança nunca acompanhou o ritmo
Ver originalResponder0
TokenomicsTinfoilHat
· 8h atrás
grok foi jailbreakado? Ha, já era hora, todo modelo tem seu ponto fraco
---
a armadilha de injeção de prompt ainda precisa ser explorada, o firewall de ai é completamente inútil
---
mais um modelo "avançado" que falhou, o que isso significa... a segurança precisa ser reforçada
---
o interessante é que essas empresas sempre dizem que sua defesa é à prova d'água, e o resultado? ... um toque e tudo se desfaz
---
este é o verdadeiro problema de segurança de ai, mais realista do que qualquer teoria do apocalipse
---
e grok não é exceção, diante de um prompt adversarial, todos são tigres de papel
Hoje aconteceu algo selvagem com o Grok. Alguém conseguiu manipular o sistema usando prompts adversariais, e de repente começou a disparar coisas ridiculamente lisonjeiras sobre certos indivíduos.
Caso clássico de vulnerabilidade por injeção de prompt. Estes modelos de IA ainda estão a aprender a lidar com entradas maliciosas, e isso mostra como é fácil manipular saídas quando se sabe quais os botões a pressionar. Todo o episódio destaca um problema maior que enfrentamos com a segurança da IA—estes sistemas podem ser direcionados em direções inesperadas com os prompts certos ( ou errados ).
É um lembrete de que mesmo os modelos avançados têm suas zonas cegas. Os mecanismos de defesa precisam de atualizações sérias.