Trong những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo, chất lượng của lời nhắc do con người tạo ra có tác động quyết định đến độ chính xác phản hồi của các mô hình ngôn ngữ lớn (LLM). Các khuyến nghị của OpenAI nói rằng các câu hỏi chính xác, chi tiết và cụ thể là rất quan trọng đối với hiệu suất của các mô hình ngôn ngữ lớn này. Tuy nhiên, liệu người dùng trung bình có thể đảm bảo rằng câu hỏi của họ đủ rõ ràng cho LLM không?
Điều quan trọng cần lưu ý là có một sự khác biệt rõ ràng giữa khả năng hiểu tự nhiên của con người và việc giải thích máy móc trong một số tình huống nhất định. Ví dụ, khái niệm "tháng chẵn" đối với con người dường như đề cập đến các tháng như tháng Hai, tháng Tư, v.v., trong khi GPT-4 có thể hiểu sai nó là một tháng có số ngày chẵn. Điều này không chỉ cho thấy những hạn chế của AI trong việc hiểu bối cảnh hàng ngày mà còn thúc đẩy chúng ta suy ngẫm về cách giao tiếp hiệu quả hơn với các mô hình ngôn ngữ lớn này. Với sự tiến bộ không ngừng của công nghệ trí tuệ nhân tạo, làm thế nào để thu hẹp khoảng cách giữa con người và máy móc trong việc hiểu ngôn ngữ là một chủ đề quan trọng cho nghiên cứu trong tương lai.
Đáp lại, Phòng thí nghiệm trí tuệ tổng hợp nhân tạo do Giáo sư Gu Quanquan của Đại học California, Los Angeles (UCLA) dẫn đầu đã công bố một báo cáo nghiên cứu đề xuất một giải pháp sáng tạo cho sự mơ hồ của các mô hình ngôn ngữ lớn (như GPT-4) trong việc hiểu vấn đề. Nghiên cứu được hoàn thành bởi các nghiên cứu sinh tiến sĩ Yihe Deng, Weitong Zhang và Zixiang Chen.
*Địa chỉ:
Địa chỉ dự án:
Cốt lõi của chương trình là để mô hình ngôn ngữ lớn lặp lại và mở rộng các câu hỏi được nêu ra để cải thiện độ chính xác của câu trả lời. Nghiên cứu cho thấy các câu hỏi được cải cách bởi GPT-4 trở nên chi tiết hơn và định dạng câu hỏi rõ ràng hơn. Phương pháp diễn giải và mở rộng này cải thiện đáng kể độ chính xác của các câu trả lời của mô hình. Các thí nghiệm đã chỉ ra rằng việc kể lại câu hỏi tốt sẽ làm tăng độ chính xác của câu trả lời từ 50% lên gần 100%. Mức tăng hiệu suất này không chỉ thể hiện tiềm năng cho các mô hình ngôn ngữ lớn để cải thiện bản thân mà còn cung cấp một quan điểm mới về cách AI có thể xử lý và hiểu ngôn ngữ của con người hiệu quả hơn.
Phương pháp
Dựa trên những phát hiện này, các nhà nghiên cứu đề xuất một gợi ý đơn giản nhưng hiệu quả (): "Diễn đạt lại và mở rộng câu hỏi và trả lời" (RaR). Lời nhắc này trực tiếp cải thiện chất lượng câu trả lời của LLM cho các câu hỏi và thể hiện sự cải thiện đáng kể trong việc xử lý vấn đề.
Nhóm nghiên cứu cũng đã đề xuất một biến thể của RaR, được gọi là "RaR hai bước", để tận dụng tối đa khả năng của các mô hình lớn như GPT-4 để kể lại các vấn đề. Cách tiếp cận này tuân theo hai bước: thứ nhất, đối với một vấn đề nhất định, một vấn đề diễn giải được tạo ra bằng cách sử dụng LLM diễn đạt lại chuyên ngành; Thứ hai, câu hỏi ban đầu và câu hỏi được kể lại được kết hợp để nhắc LLM trả lời.
Kết quả
Các thí nghiệm trên các nhiệm vụ khác nhau đã cho thấy hiệu quả nhất quán trong việc cải thiện độ chính xác của các phản hồi của GPT4, cả RaR (một bước) và hai bước. Đáng chú ý, RaR đã cho thấy những cải tiến đáng kể đối với các nhiệm vụ mà nếu không sẽ là thách thức đối với GPT-4, với độ chính xác gần 100% trong một số trường hợp. Trên cơ sở đó, nhóm nghiên cứu đã tóm tắt hai kết luận chính sau:
Lặp lại và Mở rộng (RaR) cung cấp cách tiếp cận hộp đen plug-and-play, để nhắc nhở có thể cải thiện hiệu quả hiệu suất của LLM trên nhiều tác vụ khác nhau.
Khi đánh giá hiệu suất của LLM trong các nhiệm vụ Q &A (QA), điều quan trọng là phải kiểm tra chất lượng của các câu hỏi.
Hơn nữa, các nhà nghiên cứu đã sử dụng RaR hai bước để khám phá hiệu suất của các mô hình khác nhau như GPT-4, GPT-3.5 và Vicuna-13b-v.15. Kết quả thử nghiệm cho thấy đối với các mô hình có kiến trúc phức tạp hơn và sức mạnh xử lý mạnh hơn, chẳng hạn như GPT-4, phương pháp RaR có thể cải thiện đáng kể độ chính xác và hiệu quả của việc xử lý vấn đề. Đối với các mô hình đơn giản hơn, chẳng hạn như Vicuna, hiệu quả của chiến lược RaR đã được chứng minh, mặc dù ở mức độ thấp hơn. Dựa trên điều này, các nhà nghiên cứu tiếp tục kiểm tra chất lượng của các câu hỏi sau khi kể lại các mô hình khác nhau. Đối với vấn đề kể lại của một mô hình nhỏ hơn, đôi khi có thể có sự nhiễu loạn về ý định của câu hỏi. Các câu hỏi diễn giải được cung cấp bởi các mô hình tiên tiến như GPT-4 có xu hướng phù hợp hơn với ý định của con người và tăng cường phản ứng của các mô hình khác.
Phát hiện này cho thấy một hiện tượng quan trọng: có sự khác biệt về chất lượng và hiệu quả của vấn đề kể lại các mô hình ngôn ngữ ở các cấp độ khác nhau. Các mô hình tiên tiến như GPT-4, đặc biệt, có thể kể lại vấn đề không chỉ để cung cấp cho họ sự hiểu biết rõ ràng hơn về vấn đề mà còn đóng vai trò là đầu vào hiệu quả để cải thiện hiệu suất của các mô hình nhỏ hơn khác.
Sự khác biệt so với Chuỗi suy nghĩ (CoT)
Để hiểu sự khác biệt giữa RaR và Chuỗi suy nghĩ (CoT), các nhà nghiên cứu đã đưa ra công thức toán học của họ và làm sáng tỏ RaR khác biệt về mặt toán học với CoT như thế nào và làm thế nào chúng có thể dễ dàng kết hợp.
Nghiên cứu này cũng cho thấy rằng chất lượng của các câu hỏi cần được cải thiện để đảm bảo rằng khả năng suy luận của mô hình có thể được đánh giá đúng. Ví dụ, trong trường hợp "lật đồng xu", người ta thấy rằng không giống như ý định của con người, GPT-4 hiểu từ "lật" là một cú tung ngẫu nhiên. Quan niệm sai lầm này vẫn tồn tại trong quá trình suy luận khi mô hình được hướng dẫn sử dụng "Hãy suy nghĩ từng bước" để suy luận. Chỉ sau khi câu hỏi đã được làm rõ, mô hình ngôn ngữ lớn mới trả lời câu hỏi dự kiến.
Hơn nữa, các nhà nghiên cứu nhận thấy rằng ngoài văn bản câu hỏi, các ví dụ Hỏi & Đáp được sử dụng cho CoT ít bắn cũng được viết bởi con người. Điều này đặt ra câu hỏi: các mô hình ngôn ngữ lớn (LLM) phản ứng như thế nào khi các ví dụ được xây dựng nhân tạo này còn thiếu sót? Nghiên cứu cung cấp một ví dụ thú vị và phát hiện ra rằng các ví dụ kém về CoT ít bắn có thể có tác động tiêu cực đến LLM. Ví dụ, trong trường hợp tác vụ Nối chữ cái cuối cùng, ví dụ vấn đề được sử dụng trước đó cho thấy kết quả tích cực trong việc cải thiện hiệu suất mô hình. Tuy nhiên, khi logic nhắc thay đổi, chẳng hạn như từ việc tìm chữ cái cuối cùng sang tìm chữ cái đầu tiên, GPT-4 đưa ra câu trả lời sai. Hiện tượng này làm nổi bật sự nhạy cảm của mô hình đối với các ví dụ của con người.
Các nhà nghiên cứu phát hiện ra rằng bằng cách sử dụng RaR, GPT-4 có thể sửa chữa các khiếm khuyết logic trong một ví dụ nhất định, do đó cải thiện chất lượng và độ bền của CoT ít bắn.
Kết thúc
Có thể có những hiểu lầm trong giao tiếp giữa con người và các mô hình ngôn ngữ lớn (LLM): các câu hỏi có vẻ rõ ràng đối với con người vẫn có thể được hiểu bởi các mô hình ngôn ngữ lớn như các câu hỏi khác. Nhóm nghiên cứu của UCLA đã phát triển RaR như một cách tiếp cận mới dựa trên câu hỏi này, khiến LLM lặp lại và làm rõ câu hỏi trước khi trả lời.
Đánh giá thử nghiệm RaR trên một loạt các bộ dữ liệu chuẩn đã xác nhận tính hiệu quả của phương pháp tiếp cận của nó. Phân tích sâu hơn cho thấy rằng việc cải thiện chất lượng vấn đề thu được thông qua việc kể lại có thể được chuyển qua các mô hình.
Trong tương lai, các phương pháp như RaR dự kiến sẽ tiếp tục được cải thiện và sự tích hợp của chúng với các phương pháp khác như CoT, sẽ mở đường cho các tương tác chính xác và hiệu quả hơn giữa con người và các mô hình ngôn ngữ lớn, cuối cùng đẩy ranh giới của khả năng giải thích và lý luận của AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
GPT-4 tốt hơn trong việc đặt câu hỏi hơn bạn: hãy để mô hình lớn kể lại nó một cách tự chủ, phá vỡ các rào cản đối thoại với con người
Nguồn gốc: Heart of the Machine
Trong những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo, chất lượng của lời nhắc do con người tạo ra có tác động quyết định đến độ chính xác phản hồi của các mô hình ngôn ngữ lớn (LLM). Các khuyến nghị của OpenAI nói rằng các câu hỏi chính xác, chi tiết và cụ thể là rất quan trọng đối với hiệu suất của các mô hình ngôn ngữ lớn này. Tuy nhiên, liệu người dùng trung bình có thể đảm bảo rằng câu hỏi của họ đủ rõ ràng cho LLM không?
Điều quan trọng cần lưu ý là có một sự khác biệt rõ ràng giữa khả năng hiểu tự nhiên của con người và việc giải thích máy móc trong một số tình huống nhất định. Ví dụ, khái niệm "tháng chẵn" đối với con người dường như đề cập đến các tháng như tháng Hai, tháng Tư, v.v., trong khi GPT-4 có thể hiểu sai nó là một tháng có số ngày chẵn. Điều này không chỉ cho thấy những hạn chế của AI trong việc hiểu bối cảnh hàng ngày mà còn thúc đẩy chúng ta suy ngẫm về cách giao tiếp hiệu quả hơn với các mô hình ngôn ngữ lớn này. Với sự tiến bộ không ngừng của công nghệ trí tuệ nhân tạo, làm thế nào để thu hẹp khoảng cách giữa con người và máy móc trong việc hiểu ngôn ngữ là một chủ đề quan trọng cho nghiên cứu trong tương lai.
Đáp lại, Phòng thí nghiệm trí tuệ tổng hợp nhân tạo do Giáo sư Gu Quanquan của Đại học California, Los Angeles (UCLA) dẫn đầu đã công bố một báo cáo nghiên cứu đề xuất một giải pháp sáng tạo cho sự mơ hồ của các mô hình ngôn ngữ lớn (như GPT-4) trong việc hiểu vấn đề. Nghiên cứu được hoàn thành bởi các nghiên cứu sinh tiến sĩ Yihe Deng, Weitong Zhang và Zixiang Chen.
Cốt lõi của chương trình là để mô hình ngôn ngữ lớn lặp lại và mở rộng các câu hỏi được nêu ra để cải thiện độ chính xác của câu trả lời. Nghiên cứu cho thấy các câu hỏi được cải cách bởi GPT-4 trở nên chi tiết hơn và định dạng câu hỏi rõ ràng hơn. Phương pháp diễn giải và mở rộng này cải thiện đáng kể độ chính xác của các câu trả lời của mô hình. Các thí nghiệm đã chỉ ra rằng việc kể lại câu hỏi tốt sẽ làm tăng độ chính xác của câu trả lời từ 50% lên gần 100%. Mức tăng hiệu suất này không chỉ thể hiện tiềm năng cho các mô hình ngôn ngữ lớn để cải thiện bản thân mà còn cung cấp một quan điểm mới về cách AI có thể xử lý và hiểu ngôn ngữ của con người hiệu quả hơn.
Phương pháp
Dựa trên những phát hiện này, các nhà nghiên cứu đề xuất một gợi ý đơn giản nhưng hiệu quả (): "Diễn đạt lại và mở rộng câu hỏi và trả lời" (RaR). Lời nhắc này trực tiếp cải thiện chất lượng câu trả lời của LLM cho các câu hỏi và thể hiện sự cải thiện đáng kể trong việc xử lý vấn đề.
Kết quả
Lặp lại và Mở rộng (RaR) cung cấp cách tiếp cận hộp đen plug-and-play, để nhắc nhở có thể cải thiện hiệu quả hiệu suất của LLM trên nhiều tác vụ khác nhau.
Khi đánh giá hiệu suất của LLM trong các nhiệm vụ Q &A (QA), điều quan trọng là phải kiểm tra chất lượng của các câu hỏi.
Sự khác biệt so với Chuỗi suy nghĩ (CoT)
Để hiểu sự khác biệt giữa RaR và Chuỗi suy nghĩ (CoT), các nhà nghiên cứu đã đưa ra công thức toán học của họ và làm sáng tỏ RaR khác biệt về mặt toán học với CoT như thế nào và làm thế nào chúng có thể dễ dàng kết hợp.
Kết thúc
Có thể có những hiểu lầm trong giao tiếp giữa con người và các mô hình ngôn ngữ lớn (LLM): các câu hỏi có vẻ rõ ràng đối với con người vẫn có thể được hiểu bởi các mô hình ngôn ngữ lớn như các câu hỏi khác. Nhóm nghiên cứu của UCLA đã phát triển RaR như một cách tiếp cận mới dựa trên câu hỏi này, khiến LLM lặp lại và làm rõ câu hỏi trước khi trả lời.
Đánh giá thử nghiệm RaR trên một loạt các bộ dữ liệu chuẩn đã xác nhận tính hiệu quả của phương pháp tiếp cận của nó. Phân tích sâu hơn cho thấy rằng việc cải thiện chất lượng vấn đề thu được thông qua việc kể lại có thể được chuyển qua các mô hình.
Trong tương lai, các phương pháp như RaR dự kiến sẽ tiếp tục được cải thiện và sự tích hợp của chúng với các phương pháp khác như CoT, sẽ mở đường cho các tương tác chính xác và hiệu quả hơn giữa con người và các mô hình ngôn ngữ lớn, cuối cùng đẩy ranh giới của khả năng giải thích và lý luận của AI.