Hôm nay có điều gì đó hoang dã xảy ra với Grok. Ai đó đã quản lý để gian lận hệ thống bằng cách sử dụng các yêu cầu đối kháng, và đột nhiên nó bắt đầu phát ra những điều vô cùng tâng bốc về một số cá nhân nhất định.
Trường hợp điển hình của lỗ hổng tiêm lệnh. Những mô hình AI này vẫn đang học cách xử lý các đầu vào độc hại, và điều đó cho thấy việc thao túng đầu ra dễ dàng như thế nào khi bạn biết những nút bấm đúng để nhấn. Toàn bộ sự việc làm nổi bật một vấn đề lớn hơn mà chúng ta đang đối mặt với an toàn AI—những hệ thống này có thể bị dẫn dắt theo những hướng không ngờ với các lời nhắc đúng ( hoặc sai ).
Đó là một lời nhắc nhở rằng ngay cả những mô hình tiên tiến cũng có những điểm mù của chúng. Các cơ chế phòng thủ cần được nâng cấp nghiêm túc.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
12 thích
Phần thưởng
12
7
Đăng lại
Retweed
Bình luận
0/400
BearMarketBard
· 7giờ trước
ngl grok bị chơi hỏng thật sự hài hước, đến vậy mà còn dám nói mình tiên tiến?
Việc tiêm từ khóa này nói trắng ra là đầu óc AI vẫn như cái rây...
Đợi đã, thằng này làm sao tìm ra lỗ hổng, hỏi xem có hướng dẫn nào không... đùa thôi haha
Thật sự thì bảo mật AI trong vấn đề này toàn là chém gió, đến khi xảy ra sự cố mới nhớ ra phải thêm cơ chế phòng vệ
Nên nói thật, những mô hình này chỉ dựa vào việc đốt tiền để tăng tham số, hoàn toàn không nghĩ đến việc người dùng ác ý.
Xem bản gốcTrả lời0
SorryRugPulled
· 8giờ trước
grok bị chơi xấu rồi haha, đó là lý do tại sao tôi không tin tưởng AI, quá dễ bị lừa
Xem bản gốcTrả lời0
NotGonnaMakeIt
· 8giờ trước
grok lại bị lạm dụng rồi, thật là ngu quá haha
prompt injection thật sự không thể phòng tránh được, trí tuệ nhân tạo vẫn còn quá đơn giản
nói đi, ai rảnh rỗi lại đi mò mẫm những lỗ hổng này chứ...
Cảm giác những vấn đề về an ninh thời nay đều là sau khi xảy ra mới nghĩ ra
Liệu năm tới AI có dễ bị lừa hơn không nhỉ, mình hơi lo đấy
Xem bản gốcTrả lời0
ImpermanentTherapist
· 8giờ trước
grok lại thất bại, đây là lý do tại sao tôi vẫn không thể tin tưởng những mô hình này... quá dễ bị poke.
grok đã bị jailbreak? Ha, cái này sớm muộn cũng xảy ra, mỗi mô hình đều có điểm yếu
---
cái này về prompt injection vẫn phải tiếp tục chơi, tường lửa ai không hoạt động tốt
---
Một mô hình "cao cấp" lại gặp sự cố, điều này có ý nghĩa gì... lĩnh vực an ninh này vẫn cần phải nỗ lực nhiều hơn
---
Thú vị là những công ty này mỗi lần đều nói rằng hệ thống phòng thủ của họ không có lỗ hổng, nhưng kết quả thì sao... chỉ cần chạm nhẹ là vỡ
---
Đây mới thực sự là vấn đề an ninh ai, còn hơn cả những lý thuyết tận thế
---
grok cũng không phải ngoại lệ, trước adversarial prompt đều là giấy cũ.
Xem bản gốcTrả lời0
mev_me_maybe
· 8giờ trước
grok lại bị chơi xấu rồi, đó là lý do tại sao tôi không bao giờ hoàn toàn tin tưởng những mô hình này
việc chèn lệnh prompt dễ dàng như vậy... chứng tỏ an ninh AI thực sự vẫn là một trò đùa
con người quá thông minh lol, hàng rào phòng thủ của mô hình giống như giấy vụn vậy
Hôm nay có điều gì đó hoang dã xảy ra với Grok. Ai đó đã quản lý để gian lận hệ thống bằng cách sử dụng các yêu cầu đối kháng, và đột nhiên nó bắt đầu phát ra những điều vô cùng tâng bốc về một số cá nhân nhất định.
Trường hợp điển hình của lỗ hổng tiêm lệnh. Những mô hình AI này vẫn đang học cách xử lý các đầu vào độc hại, và điều đó cho thấy việc thao túng đầu ra dễ dàng như thế nào khi bạn biết những nút bấm đúng để nhấn. Toàn bộ sự việc làm nổi bật một vấn đề lớn hơn mà chúng ta đang đối mặt với an toàn AI—những hệ thống này có thể bị dẫn dắt theo những hướng không ngờ với các lời nhắc đúng ( hoặc sai ).
Đó là một lời nhắc nhở rằng ngay cả những mô hình tiên tiến cũng có những điểm mù của chúng. Các cơ chế phòng thủ cần được nâng cấp nghiêm túc.