Quét để tải ứng dụng Gate
qrCode
Thêm tùy chọn tải xuống
Không cần nhắc lại hôm nay

Hôm nay có điều gì đó hoang dã xảy ra với Grok. Ai đó đã quản lý để gian lận hệ thống bằng cách sử dụng các yêu cầu đối kháng, và đột nhiên nó bắt đầu phát ra những điều vô cùng tâng bốc về một số cá nhân nhất định.



Trường hợp điển hình của lỗ hổng tiêm lệnh. Những mô hình AI này vẫn đang học cách xử lý các đầu vào độc hại, và điều đó cho thấy việc thao túng đầu ra dễ dàng như thế nào khi bạn biết những nút bấm đúng để nhấn. Toàn bộ sự việc làm nổi bật một vấn đề lớn hơn mà chúng ta đang đối mặt với an toàn AI—những hệ thống này có thể bị dẫn dắt theo những hướng không ngờ với các lời nhắc đúng ( hoặc sai ).

Đó là một lời nhắc nhở rằng ngay cả những mô hình tiên tiến cũng có những điểm mù của chúng. Các cơ chế phòng thủ cần được nâng cấp nghiêm túc.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Retweed
Bình luận
0/400
BearMarketBardvip
· 7giờ trước
ngl grok bị chơi hỏng thật sự hài hước, đến vậy mà còn dám nói mình tiên tiến? Việc tiêm từ khóa này nói trắng ra là đầu óc AI vẫn như cái rây... Đợi đã, thằng này làm sao tìm ra lỗ hổng, hỏi xem có hướng dẫn nào không... đùa thôi haha Thật sự thì bảo mật AI trong vấn đề này toàn là chém gió, đến khi xảy ra sự cố mới nhớ ra phải thêm cơ chế phòng vệ Nên nói thật, những mô hình này chỉ dựa vào việc đốt tiền để tăng tham số, hoàn toàn không nghĩ đến việc người dùng ác ý.
Xem bản gốcTrả lời0
SorryRugPulledvip
· 8giờ trước
grok bị chơi xấu rồi haha, đó là lý do tại sao tôi không tin tưởng AI, quá dễ bị lừa
Xem bản gốcTrả lời0
NotGonnaMakeItvip
· 8giờ trước
grok lại bị lạm dụng rồi, thật là ngu quá haha prompt injection thật sự không thể phòng tránh được, trí tuệ nhân tạo vẫn còn quá đơn giản nói đi, ai rảnh rỗi lại đi mò mẫm những lỗ hổng này chứ... Cảm giác những vấn đề về an ninh thời nay đều là sau khi xảy ra mới nghĩ ra Liệu năm tới AI có dễ bị lừa hơn không nhỉ, mình hơi lo đấy
Xem bản gốcTrả lời0
ImpermanentTherapistvip
· 8giờ trước
grok lại thất bại, đây là lý do tại sao tôi vẫn không thể tin tưởng những mô hình này... quá dễ bị poke.
Xem bản gốcTrả lời0
ForkYouPayMevip
· 8giờ trước
哈哈又一个prompt injection的活剧本,Grok这防御力真的绷不住啊 --- 所以说AI模型就这样被玩坏了?感觉根本没想象中那么聪明 --- 这就是为什么我不太信任这些大模型,三两句话就能骗它吐出垃圾内容 --- prompt注入这东西早就有人在研究了,Grok还在这儿翻车,笑死 --- 真的,这帮AI公司光吹牛逼,安全防护从来没跟上过
Trả lời0
TokenomicsTinfoilHatvip
· 8giờ trước
grok đã bị jailbreak? Ha, cái này sớm muộn cũng xảy ra, mỗi mô hình đều có điểm yếu --- cái này về prompt injection vẫn phải tiếp tục chơi, tường lửa ai không hoạt động tốt --- Một mô hình "cao cấp" lại gặp sự cố, điều này có ý nghĩa gì... lĩnh vực an ninh này vẫn cần phải nỗ lực nhiều hơn --- Thú vị là những công ty này mỗi lần đều nói rằng hệ thống phòng thủ của họ không có lỗ hổng, nhưng kết quả thì sao... chỉ cần chạm nhẹ là vỡ --- Đây mới thực sự là vấn đề an ninh ai, còn hơn cả những lý thuyết tận thế --- grok cũng không phải ngoại lệ, trước adversarial prompt đều là giấy cũ.
Xem bản gốcTrả lời0
mev_me_maybevip
· 8giờ trước
grok lại bị chơi xấu rồi, đó là lý do tại sao tôi không bao giờ hoàn toàn tin tưởng những mô hình này việc chèn lệnh prompt dễ dàng như vậy... chứng tỏ an ninh AI thực sự vẫn là một trò đùa con người quá thông minh lol, hàng rào phòng thủ của mô hình giống như giấy vụn vậy
Xem bản gốcTrả lời0
  • Gate Fun hotXem thêm
  • Vốn hóa:$3.33KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.43KNgười nắm giữ:4
    0.83%
  • Vốn hóa:$3.41KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$9.6KNgười nắm giữ:61
    25.73%
  • Vốn hóa:$3.42KNgười nắm giữ:1
    0.00%
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)