Nghiên cứu mới nhất của OpenAI: Tại sao GPT-5 và các LLM khác vẫn nói nhảm.

OpenAI phát hành nghiên cứu mới nhất, thẳng thắn chỉ ra rằng ngay cả các mô hình ngôn ngữ lớn (LLM) như GPT-5 đã tiến bộ đáng kể, nhưng "ảo giác AI" (Hallucinations) vẫn là vấn đề cốt lõi, thậm chí không bao giờ có thể loại bỏ hoàn toàn. Nhóm nghiên cứu thông qua thí nghiệm, tiết lộ rằng mô hình khi trả lời các câu hỏi cụ thể, sẽ tự tin nhưng lại đưa ra câu trả lời hoàn toàn sai, và đã đề xuất một bộ "cơ chế đánh giá" cải cách mới, hy vọng có thể giảm thiểu tình trạng "đoán mò" của mô hình.

Nhà nghiên cứu đã thử nghiệm mô hình AI với các câu hỏi khác nhau, tất cả các câu trả lời đều sai.

Các nhà nghiên cứu đã hỏi một chatbot được sử dụng rộng rãi về tiêu đề luận án tiến sĩ của một người nào đó, và kết quả là nhận được ba câu trả lời liên tiếp đều sai. Sau đó, họ hỏi về ngày sinh của người đó, chatbot cũng đưa ra ba ngày khác nhau, và kết quả vẫn hoàn toàn sai.

Nghiên cứu cho thấy, các mô hình AI khi đối mặt với "những thông tin rất hiếm" trong một số dữ liệu, chúng sẽ tự tin đưa ra câu trả lời, nhưng lại sai lệch một cách đáng kinh ngạc.

Cơ chế tiền huấn luyện chỉ học "bề mặt ngôn ngữ", không hiểu độ chính xác của sự thật.

Nghiên cứu chỉ ra rằng, quá trình tiền huấn luyện của mô hình là thông qua một lượng lớn văn bản để "dự đoán từ tiếp theo", nhưng dữ liệu không được đánh dấu "đúng hay sai". Nói cách khác, mô hình chỉ học được bề mặt của ngôn ngữ, chứ không phải độ chính xác của sự thật.

Các thứ có quy luật cao như ghép chữ hay ngoặc, khi quy mô mô hình tăng lên, sai sót sẽ dần dần biến mất.

Nhưng những thông tin có tính ngẫu nhiên cao như "sinh nhật của ai đó" thì không thể suy luận được dựa vào mô hình ngôn ngữ, vì vậy dễ gây ra ảo giác.

Mô hình AI được khuyến khích "đoán mò", cần điều chỉnh phương thức đánh giá mô hình.

Nghiên cứu nhấn mạnh rằng phương pháp đánh giá cần phải thay đổi lớn, điểm mấu chốt không phải chỉ đơn giản là xem "đúng hay sai", mà là phải trừng phạt nặng những câu trả lời sai mà rất tự tin, và thưởng cho AI khi "thành thật nói không biết". Nói cách khác, AI nếu trả lời bừa thì nên bị trừ điểm nhiều hơn là thừa nhận không biết.

Ngược lại, nếu nó trả lời "không chắc chắn", nó cũng nên nhận được một số điểm, chứ không phải là tính luôn điểm không. Hơn nữa, điều này không thể chỉ là thêm vài bài kiểm tra cho có hình thức, mà phải hoàn toàn lật đổ hệ thống đánh giá hiện tại chỉ dựa vào tỷ lệ trả lời đúng. Nếu không sửa đổi cách đánh giá, AI chỉ sẽ tiếp tục đoán bừa.

Nghiên cứu cuối cùng cho thấy để giảm thiểu ảo giác, cần phải bắt đầu từ hệ thống đánh giá, thiết lập cách thức kiểm tra thực sự khuyến khích "thận trọng và trung thực". Thay vì yêu cầu AI "luôn trả lời đúng", quan trọng hơn là thiết lập một bộ quy tắc trò chơi có thể chấp nhận AI "không biết".

(2025 Phân tích toàn diện 5 LLM chính thống mới nhất, hiểu ngay về phí, ứng dụng và an toàn )

Bài viết này Nghiên cứu mới nhất của OpenAI: Tại sao GPT-5 và các LLM khác vẫn nói nhảm Lần đầu tiên xuất hiện trên Tin tức chuỗi ABMedia.

GPT0.41%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)