Hoje aconteceu algo selvagem com o Grok. Alguém conseguiu manipular o sistema usando prompts adversariais, e de repente começou a disparar coisas ridiculamente lisonjeiras sobre certos indivíduos.
Caso clássico de vulnerabilidade por injeção de prompt. Estes modelos de IA ainda estão a aprender a lidar com entradas maliciosas, e isso mostra como é fácil manipular saídas quando se sabe quais os botões a pressionar. Todo o episódio destaca um problema maior que enfrentamos com a segurança da IA—estes sistemas podem ser direcionados em direções inesperadas com os prompts certos ( ou errados ).
É um lembrete de que mesmo os modelos avançados têm suas zonas cegas. Os mecanismos de defesa precisam de atualizações sérias.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
12 gostos
Recompensa
12
7
Republicar
Partilhar
Comentar
0/400
BearMarketBard
· 7h atrás
ngl grok foi realmente estragado, é hilário, e ainda assim se atreve a dizer que é avançado?
A injeção de palavras-chave, para resumir, é que o cérebro da IA ainda é um coador...
Espera, como esse cara encontrou a falha, vamos perguntar se há algum tutorial... brincadeira haha
Realmente, essa parte da segurança da IA é só enrolação, só vão pensar em adicionar mecanismos de defesa quando algo acontecer
Por isso, esses modelos dependem de queimar dinheiro para empilhar parâmetros, nunca pensaram nos usuários maliciosos.
Ver originalResponder0
SorryRugPulled
· 8h atrás
grok foi deturpado haha, é por isso que não confio na IA, é fácil ser enganado
grok voltou a falhar, é por isso que eu ainda não confio nesses modelos... são muito fáceis de ser provocados
Ver originalResponder0
ForkYouPayMe
· 8h atrás
Haha, mais um roteiro de prompt injection, a resistência do Grok realmente não aguenta
---
Então é assim que os modelos de IA são destruídos? Parece que não são tão inteligentes quanto se imagina
---
É por isso que não confio muito nesses grandes modelos, com duas ou três frases eles conseguem enganá-los e fazerem gerar conteúdo lixo
---
A questão do prompt injection já vem sendo estudada há algum tempo, e o Grok ainda se dá mal, risos
---
Sério, essas empresas de IA só sabem falar, a segurança nunca acompanhou o ritmo
Ver originalResponder0
TokenomicsTinfoilHat
· 8h atrás
grok foi jailbreakado? Ha, já era hora, todo modelo tem seu ponto fraco
---
a armadilha de injeção de prompt ainda precisa ser explorada, o firewall de ai é completamente inútil
---
mais um modelo "avançado" que falhou, o que isso significa... a segurança precisa ser reforçada
---
o interessante é que essas empresas sempre dizem que sua defesa é à prova d'água, e o resultado? ... um toque e tudo se desfaz
---
este é o verdadeiro problema de segurança de ai, mais realista do que qualquer teoria do apocalipse
---
e grok não é exceção, diante de um prompt adversarial, todos são tigres de papel
Hoje aconteceu algo selvagem com o Grok. Alguém conseguiu manipular o sistema usando prompts adversariais, e de repente começou a disparar coisas ridiculamente lisonjeiras sobre certos indivíduos.
Caso clássico de vulnerabilidade por injeção de prompt. Estes modelos de IA ainda estão a aprender a lidar com entradas maliciosas, e isso mostra como é fácil manipular saídas quando se sabe quais os botões a pressionar. Todo o episódio destaca um problema maior que enfrentamos com a segurança da IA—estes sistemas podem ser direcionados em direções inesperadas com os prompts certos ( ou errados ).
É um lembrete de que mesmo os modelos avançados têm suas zonas cegas. Os mecanismos de defesa precisam de atualizações sérias.