Aujourd'hui, quelque chose de fou s'est produit avec Grok. Quelqu'un a réussi à manipuler le système en utilisant des invites adversariales, et soudain, il a commencé à cracher des choses ridiculement flatteuses sur certaines personnes.
Cas classique de vulnérabilité d'injection de prompt. Ces modèles d'IA apprennent encore à gérer les entrées malveillantes, et cela montre à quel point il est facile de manipuler les sorties lorsque l'on sait quels boutons pousser. Tout cet épisode met en lumière un problème plus vaste auquel nous sommes confrontés en matière de sécurité de l'IA : ces systèmes peuvent être orientés dans des directions inattendues avec les bons ( ou les mauvais ) prompts.
C'est un rappel que même les modèles avancés ont leurs angles morts. Les mécanismes de défense ont besoin de mises à niveau sérieuses.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
12 J'aime
Récompense
12
7
Reposter
Partager
Commentaire
0/400
BearMarketBard
· Il y a 8h
Ngl, grok a vraiment été détourné, c'est vrai que c'est drôle, et ils osent encore dire qu'ils sont avancés ?
En gros, l'injection de mots clés, c'est juste que le cerveau de l'IA est encore un tamis...
Attendez, comment ce gars a-t-il trouvé la faille, demandons s'il y a un tutoriel... je rigole haha
Vraiment, la sécurité de l'IA, c'est juste du blabla, ils ne pensent à ajouter des mécanismes de défense qu'une fois que quelque chose arrive
Donc, ces modèles, ils s'appuient juste sur l'argent pour empiler les paramètres, ils n'ont jamais pensé aux utilisateurs malveillants.
Voir l'originalRépondre0
SorryRugPulled
· Il y a 8h
grok a été abusé haha, c'est pourquoi je ne fais pas confiance à l'IA, il est trop facile de se faire arnaquer
Voir l'originalRépondre0
NotGonnaMakeIt
· Il y a 8h
grok encore une fois mal utilisé, c'est vraiment débile haha
le prompt injection est vraiment impossible à prévenir, l'intelligence artificielle reste trop simple
au fait, qui s'ennuie et doit absolument exploiter ces vulnérabilités...
on a l'impression qu'aujourd'hui, tous les problèmes de sécurité sont découverts après coup
est-ce que l'IA sera plus facilement dupée l'année prochaine ? je m'inquiète un peu
Voir l'originalRépondre0
ImpermanentTherapist
· Il y a 8h
grok a encore échoué, c'est pourquoi je ne fais toujours pas confiance à ces modèles... ils sont trop faciles à piquer.
Voir l'originalRépondre0
ForkYouPayMe
· Il y a 8h
Haha encore un scénario d'injection de prompt, la défense de Grok ne tient vraiment pas le coup
---
Donc, l'IA comme ça est juste dévoyée ? J'ai l'impression qu'elle n'est pas aussi intelligente qu'on le croit
---
C'est pour ça que je ne fais pas trop confiance à ces grands modèles, en quelques phrases ils peuvent leur faire dire des contenus indésirables
---
L'injection de prompt, ça fait longtemps que des gens y travaillent, et Grok tombe encore à l'eau, mort de rire
---
Vraiment, ces entreprises d'IA ne font que se vanter, elles n'ont jamais suivi en matière de sécurité et de protection
Voir l'originalRépondre0
TokenomicsTinfoilHat
· Il y a 8h
grok a été jailbreaké ? Ha, ça devait arriver, chaque modèle a son talon d'Achille
---
il faut continuer à jouer avec cette méthode d'injection de prompt, le pare-feu AI ne fonctionne absolument pas
---
un autre modèle "avancé" qui fait flop, que signifie cela... la sécurité doit vraiment être renforcée
---
ce qui est intéressant, c'est que ces entreprises affirment toujours que leur défense est infaillible, et le résultat ?... il suffit d'un coup pour faire tomber
---
c'est vraiment un problème de sécurité AI, plus réaliste que n'importe quel discours de fin du monde
---
grok n'est pas une exception, face à un prompt adversarial, ce ne sont que des tigres de papier
Voir l'originalRépondre0
mev_me_maybe
· Il y a 8h
grok a été encore une fois mal utilisé, c'est pourquoi je ne leur fais jamais totalement confiance
l'injection de prompt est devenue si facile... cela montre que la sécurité de l'IA est vraiment une blague
les humains sont tout simplement trop intelligents lol, la ligne de défense du modèle est aussi fragile que du papier
Aujourd'hui, quelque chose de fou s'est produit avec Grok. Quelqu'un a réussi à manipuler le système en utilisant des invites adversariales, et soudain, il a commencé à cracher des choses ridiculement flatteuses sur certaines personnes.
Cas classique de vulnérabilité d'injection de prompt. Ces modèles d'IA apprennent encore à gérer les entrées malveillantes, et cela montre à quel point il est facile de manipuler les sorties lorsque l'on sait quels boutons pousser. Tout cet épisode met en lumière un problème plus vaste auquel nous sommes confrontés en matière de sécurité de l'IA : ces systèmes peuvent être orientés dans des directions inattendues avec les bons ( ou les mauvais ) prompts.
C'est un rappel que même les modèles avancés ont leurs angles morts. Les mécanismes de défense ont besoin de mises à niveau sérieuses.