Chúng ta biết rằng thành công của ChatGPT không thể tách rời "vũ khí bí mật" của RLHF. Tuy nhiên, RLHF không hoàn hảo và có những thách thức tối ưu hóa khó giải quyết. Trong bài báo này, một nhóm nghiên cứu từ Đại học Stanford và các tổ chức nghiên cứu khác khám phá việc thay thế "học tăng cường" bằng "học tập ưu tiên tương phản", có hiệu suất tốt về tốc độ và hiệu suất.
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Học tăng cường dựa trên phản hồi của con người (RLHF) đã trở thành một mô hình phổ biến về việc sắp xếp các mô hình với ý định của con người. Thông thường, các thuật toán RLHF hoạt động theo hai giai đoạn: thứ nhất, học chức năng phần thưởng bằng cách sử dụng sở thích của con người và thứ hai, sắp xếp mô hình bằng cách tối ưu hóa phần thưởng đã học bằng cách sử dụng học tăng cường.
Mô hình RLHF giả định rằng sự phân phối sở thích của con người tuân theo phần thưởng, nhưng các nghiên cứu gần đây cho thấy rằng đây không phải là trường hợp và sở thích của con người thực sự tuân theo giá trị hối tiếc của chiến lược tối ưu của người dùng. Do đó, việc học các chức năng khen thưởng dựa trên phản hồi không chỉ dựa trên một giả định thiếu sót về sở thích của con người, mà còn dẫn đến các câu đố tối ưu hóa khó giải quyết đến từ độ dốc chính sách hoặc bootstrapping trong học tăng cường.
Do những thách thức tối ưu hóa này, các phương pháp RLHF ngày nay tự giới hạn trong các cài đặt kẻ cướp dựa trên ngữ cảnh (ví dụ: trong các mô hình ngôn ngữ lớn) hoặc theo các chiều quan sát của riêng chúng (ví dụ: robot dựa trên trạng thái).
Để vượt qua những thách thức này, một nhóm các nhà nghiên cứu tại Stanford và các trường đại học khác đã đề xuất một loạt các thuật toán mới có thể sử dụng mô hình sở thích của con người dựa trên sự hối tiếc để tối ưu hóa hành vi khi sử dụng phản hồi của con người, thay vì mô hình khen thưởng một phần được cộng đồng chấp nhận rộng rãi và chỉ xem xét tổng phần thưởng. Không giống như các mô hình lợi nhuận một phần, các mô hình dựa trên sự hối tiếc cung cấp thông tin trực tiếp về chiến lược tối ưu.
Một cơ chế như vậy đã dẫn đến một kết quả may mắn: học tăng cường không còn cần thiết nữa!
Bằng cách này, các vấn đề RLHF có thể được giải quyết trong khuôn khổ MDP có mục đích chung với các trạng thái chiều và không gian hành động cao.
Các nhà nghiên cứu đề xuất rằng cái nhìn sâu sắc cốt lõi của kết quả nghiên cứu của họ là kết hợp khung ưu tiên dựa trên sự hối tiếc với nguyên tắc entropy tối đa (MaxEnt) có thể thu được sự lưỡng tính giữa chức năng chi phối và chiến lược. Bằng cách thay thế tối ưu hóa lợi thế bằng tối ưu hóa chiến lược, mục tiêu học tập có giám sát thuần túy có thể được rút ra và giá trị tối ưu của nó là chiến lược tối ưu theo phần thưởng của chuyên gia. Nhóm nghiên cứu đặt tên cho phương pháp này là Học tập ưu tiên tương phản (CPL) vì nó giống với mục tiêu được chấp nhận rộng rãi của học tập tương phản.
*Địa chỉ:
Mã địa chỉ:
CPL có ba lợi thế chính so với các phương pháp trước đây.
Đầu tiên, CPL mở rộng quy mô như học có giám sát vì nó chỉ sử dụng các mục tiêu được giám sát để phù hợp với thế mạnh tối ưu mà không sử dụng bất kỳ độ dốc chiến lược hoặc lập trình động nào.
Thứ hai, CPL là một cách tiếp cận hoàn toàn ngoài chính sách, vì vậy nó có thể sử dụng hiệu quả bất kỳ nguồn dữ liệu tối ưu ngoại tuyến nào.
Thứ ba, CPL có thể được áp dụng cho bất kỳ quy trình quyết định Markov (MDP) nào để nó có thể học hỏi từ các truy vấn ưu tiên trên dữ liệu trình tự.
Theo nhóm nghiên cứu, không có phương pháp RLHF nào trước đây đáp ứng cả ba tiêu chí này. Để chỉ ra rằng phương pháp CPL phù hợp với ba mô tả trên, các nhà nghiên cứu đã tiến hành các thí nghiệm và kết quả cho thấy phương pháp này có thể giải quyết hiệu quả vấn đề ra quyết định tuần tự với dữ liệu chiến lược phân ly dưới mức tối ưu và chiều cao.
Đáng chú ý, họ phát hiện ra rằng CPL có thể học hiệu quả các chiến lược hoạt động mở rộng theo thời gian bằng cách sử dụng cùng một quy trình tinh chỉnh RLHF như mô hình đàm thoại trên điểm chuẩn MetaWorld.
Cụ thể, họ sử dụng phương pháp học tập có giám sát để đào tạo trước các chiến lược về quan sát hình ảnh chiều cao và sau đó tinh chỉnh chúng bằng cách sử dụng các tùy chọn. Không cần lập trình động hoặc độ dốc chính sách, CPL có thể đạt được hiệu suất tương tự như cách tiếp cận dựa trên học tập tăng cường tiên nghiệm. Đồng thời, phương pháp CPL nhanh hơn 1, 6 lần và hiệu suất tham số nhanh hơn bốn lần. Khi sử dụng dữ liệu ưu tiên chuyên sâu hơn, hiệu suất của CPL vượt trội hơn học tăng cường trên 5 trong số 6 nhiệm vụ.
Học ưu tiên tương phản
Ý tưởng cốt lõi của phương pháp này rất đơn giản: các nhà nghiên cứu nhận thấy rằng khi sử dụng khung học tăng cường entropy tối đa, hàm thống trị được sử dụng trong mô hình ưu tiên hối tiếc có thể dễ dàng thay thế bằng xác suất logarit của chiến lược. Tuy nhiên, sự thay thế đơn giản này có thể mang lại lợi ích rất lớn. Nếu bạn sử dụng xác suất logarit của chiến lược, bạn không cần phải học hàm lợi thế hoặc đối phó với các vấn đề tối ưu hóa liên quan đến các thuật toán học tập giống như củng cố.
Điều này không chỉ tạo ra một mô hình ưu tiên hối tiếc được liên kết chặt chẽ hơn, các nhà nghiên cứu cho biết, mà còn có thể dựa hoàn toàn vào việc học có giám sát để học hỏi từ phản hồi của con người.
Mục tiêu CPL được suy ra đầu tiên và nó được chỉ ra rằng đối với hàm phần thưởng người dùng chuyên gia r \ _E với dữ liệu không giới hạn, phương pháp hội tụ đến chiến lược tối ưu. Mối liên hệ giữa CPL và các phương pháp học tập có giám sát khác sau đó sẽ được giải thích. Cuối cùng, điều tra viên sẽ giải thích làm thế nào CPL có thể được sử dụng trong thực tế. Họ nói rằng các thuật toán này thuộc về một loại phương pháp mới để giải quyết các vấn đề ra quyết định tuần tự, có hiệu quả cao vì chúng có thể học các chiến lược trực tiếp từ các sở thích dựa trên sự hối tiếc mà không cần học tăng cường.
** Từ lợi thế tối ưu đến chiến lược tối ưu **
Khi sử dụng mô hình ưu tiên hối tiếc, tập dữ liệu ưu tiên D \ _pref chứa thông tin về hàm thống trị tối ưu A ^ ∗ (s, a). Chúng ta có thể trực giác nghĩ rằng hàm này đo lường mức độ tồi tệ của a đối với một hành động nhất định so với hành động được tạo ra bởi chiến lược tối ưu ở trạng thái s.
Do đó, theo định nghĩa, hành động tối đa hóa lợi thế tối ưu là hành động tối ưu và học chức năng lợi thế tối ưu từ sở thích sẽ cho phép người ta trích xuất chiến lược tối ưu một cách trực quan.
Cụ thể, nhóm nghiên cứu đã chứng minh định lý sau:
Lợi ích của chiến lược học trực tiếp: Có rất nhiều lợi ích thực tế và lý thuyết để học π trực tiếp theo cách này. Rõ ràng nhất trong số này có thể là nếu bạn tìm hiểu chiến lược trực tiếp, bạn không cần phải học bất kỳ chức năng nào khác, chẳng hạn như chức năng phần thưởng hoặc hàm giá trị. Điều này làm cho CPL đơn giản hơn rất nhiều so với phương pháp trước đó.
Kết nối với học tập tương phản. Cách tiếp cận CPL trực tiếp sử dụng mục tiêu so sánh để học chiến lược. Các nhà nghiên cứu cho biết họ hy vọng CPL sẽ mở rộng quy mô tốt hơn các phương pháp học tăng cường sử dụng các thuật toán học tăng cường truyền thống, do sự thành công đã được chứng minh của các mục tiêu học tập tương phản với các bộ dữ liệu lớn và mạng lưới thần kinh.
Cân nhắc thực tế
Khung học tập ưu tiên tương phản cung cấp một chức năng mất mát chung có thể được sử dụng để học các chiến lược từ các sở thích dựa trên sức mạnh, từ đó nhiều thuật toán có thể được rút ra. Sau đây là một ví dụ thực tế về một khung CPL cụ thể hoạt động tốt.
CPL với dữ liệu ngoại tuyến hạn chế. Mặc dù CPL có thể hội tụ thành một chiến lược tối ưu với dữ liệu ưu tiên không giới hạn, nhưng trên thực tế, chúng ta thường quan tâm đến việc học hỏi từ một tập dữ liệu ngoại tuyến hạn chế. Trong thiết lập này, các chính sách ngoại suy quá xa so với hỗ trợ của tập dữ liệu hoạt động kém vì các hành động chúng thực hiện dẫn đến trạng thái không phân phối.
Chính quy hóa. Trong cài đặt hữu hạn, chúng tôi muốn chọn một chiến lược giảm thiểu hàm mất CPL trong khi đưa ra xác suất cao hơn cho các hành động trong tập dữ liệu đó. Để làm điều này, nhà nghiên cứu sử dụng một bộ quy tắc bảo thủ để có được chức năng tổn thất sau: khi chiến lược có xác suất hành động cao hơn trong D \ _pref, tổn thất thấp hơn được phân bổ, do đó đảm bảo rằng nó nằm trong phân phối.
Đào tạo trước. Nhóm nghiên cứu phát hiện ra rằng chính sách π_θ đã được đào tạo trước bằng cách sử dụng phương pháp Nhân bản hành vi (BC) để có được kết quả tốt hơn. Vì vậy, trước khi tinh chỉnh với các tùy chọn sử dụng tổn thất CPL, nhóm nghiên cứu đã sử dụng mục tiêu nhân bản khả năng tối đa tiêu chuẩn để đào tạo chiến lược, cụ thể là:
Thử nghiệm và kết quả
Phần này sẽ trả lời các câu hỏi sau về CPL: 1. CPL có thể điều chỉnh hiệu quả các chính sách dựa trên các ưu tiên dựa trên sự hối tiếc không?2. CPL có thể được thu nhỏ cho các vấn đề kiểm soát chiều cao và mạng lớn hơn không?3. Những thành phần nào của CPL là quan trọng để đạt được hiệu suất cao?
Dữ liệu ưu tiên. Sử dụng dữ liệu và sở thích triển khai phân ly dưới mức tối ưu, các nhà điều tra đã đánh giá khả năng của CPL để tìm hiểu các chiến lược cho MDP chung.
Phương pháp điểm chuẩn. Ba phương pháp điểm chuẩn đã được xem xét trong thử nghiệm: tinh chỉnh có giám sát (SFT), ưu tiên học Q ngầm (P-IQL), % BC (đào tạo chính sách bằng cách nhân bản hành vi của X% triển khai hàng đầu).
CPL hoạt động như thế nào?**
CPL hoạt động như thế nào khi sử dụng các quan sát dựa trên trạng thái? Đối với kết quả thí nghiệm dựa trên trạng thái, hàng 1 và 3 của Bảng 1 chủ yếu hiển thị.
Khi sử dụng dữ liệu so sánh thưa thớt hơn (hàng 3), CPL vượt trội hơn cách tiếp cận trước đó trên 5 trong số 6 môi trường và lợi thế so với P-IQL hầu hết là rõ ràng, đặc biệt là trong môi trường Nhấn nút, Chọn thùng rác và Quét vào môi trường. Khi áp dụng cho các bộ dữ liệu có so sánh chuyên sâu hơn, CPL thậm chí còn có lợi hơn P-IQL (hàng 1) và có ý nghĩa trong mọi bối cảnh.
Để kiểm tra xem mục tiêu giám sát của CPL có thể được mở rộng sang các vấn đề điều khiển liên tục chiều cao hay không, nhóm nghiên cứu đã kết xuất bộ dữ liệu MetaWorld thành 64 × 64 hình ảnh.
Hàng 2 và 4 của Bảng 1 cho kết quả của thử nghiệm dựa trên hình ảnh. Họ đã có một phát hiện thú vị: đối với SFT, hiệu suất tăng nhẹ, nhưng sự cải thiện trong P-IQL là đáng chú ý. Khi học dữ liệu ưu tiên chuyên sâu hơn (hàng 2), CPL vẫn hoạt động tốt hơn P-IQL trên 4 trong số 6 môi trường và có thể so sánh với cả hai trên Sweep In. Khi học dữ liệu so sánh thưa thớt hơn (hàng 4), CPL và P-IQL thực hiện như nhau trên hầu hết các tác vụ.
Điều này càng nổi bật hơn khi xem xét rằng CPL có độ phức tạp thấp hơn đáng kể! P-IQL phải học hàm phần thưởng, hàm Q, hàm giá trị và chiến lược. CPL không yêu cầu bất kỳ chiến lược nào trong số chúng, nó chỉ cần học một chiến lược duy nhất, giúp giảm đáng kể thời gian đào tạo và số lượng thông số.
Như thể hiện trong Bảng 2 dưới đây, CPL chạy nhanh hơn 1,62 lần so với P-IQL trên các tác vụ hình ảnh và có ít hơn một phần tư số lượng tham số. Khi mạng lưới phát triển, hiệu suất đạt được từ việc sử dụng CPL sẽ chỉ tăng lên.
Những thành phần nào đóng góp vào hiệu suất của CPL?
Có thể thấy từ kết quả thí nghiệm, khoảng cách giữa CPL và phương pháp chuẩn lớn hơn khi sử dụng các bộ dữ liệu có so sánh chuyên sâu hơn. Điều này phù hợp với kết quả nghiên cứu trước đây trong học tập tương phản.
Để điều tra hiệu ứng này, hiệu suất của CPL được đánh giá bằng cách tăng số lượng so sánh được lấy mẫu trên mỗi đoạn dựa trên bộ dữ liệu kích thước cố định gồm 5.000 đoạn. Hình 2 dưới đây cho thấy kết quả trên nhiệm vụ Mở ngăn kéo cho các quan sát dựa trên trạng thái.
Nhìn chung, CPL có lợi khi số lượng so sánh được lấy mẫu trên mỗi clip tăng lên, ngoại trừ nhiệm vụ Plate Slide.
Cuối cùng, nhóm nghiên cứu cũng đã thực hiện một nghiên cứu cắt bỏ các siêu tham số của CPL (giá trị nhiệt độ α và bộ điều chỉnh thiên vị λ), cũng dựa trên nhiệm vụ ngăn kéo mở, kết quả được hiển thị ở phía bên phải của Hình 2. Mặc dù CPL hoạt động tốt với các giá trị này, các thí nghiệm đã phát hiện ra rằng nó có thể hoạt động tốt hơn với việc điều chỉnh các siêu tham số thích hợp, đặc biệt là λ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Stanford đề xuất học tập ưu tiên tương phản: học từ phản hồi của con người mà không cần học tăng cường
Nguồn bài viết: Heart of the Machine
Học tăng cường dựa trên phản hồi của con người (RLHF) đã trở thành một mô hình phổ biến về việc sắp xếp các mô hình với ý định của con người. Thông thường, các thuật toán RLHF hoạt động theo hai giai đoạn: thứ nhất, học chức năng phần thưởng bằng cách sử dụng sở thích của con người và thứ hai, sắp xếp mô hình bằng cách tối ưu hóa phần thưởng đã học bằng cách sử dụng học tăng cường.
Mô hình RLHF giả định rằng sự phân phối sở thích của con người tuân theo phần thưởng, nhưng các nghiên cứu gần đây cho thấy rằng đây không phải là trường hợp và sở thích của con người thực sự tuân theo giá trị hối tiếc của chiến lược tối ưu của người dùng. Do đó, việc học các chức năng khen thưởng dựa trên phản hồi không chỉ dựa trên một giả định thiếu sót về sở thích của con người, mà còn dẫn đến các câu đố tối ưu hóa khó giải quyết đến từ độ dốc chính sách hoặc bootstrapping trong học tăng cường.
Do những thách thức tối ưu hóa này, các phương pháp RLHF ngày nay tự giới hạn trong các cài đặt kẻ cướp dựa trên ngữ cảnh (ví dụ: trong các mô hình ngôn ngữ lớn) hoặc theo các chiều quan sát của riêng chúng (ví dụ: robot dựa trên trạng thái).
Để vượt qua những thách thức này, một nhóm các nhà nghiên cứu tại Stanford và các trường đại học khác đã đề xuất một loạt các thuật toán mới có thể sử dụng mô hình sở thích của con người dựa trên sự hối tiếc để tối ưu hóa hành vi khi sử dụng phản hồi của con người, thay vì mô hình khen thưởng một phần được cộng đồng chấp nhận rộng rãi và chỉ xem xét tổng phần thưởng. Không giống như các mô hình lợi nhuận một phần, các mô hình dựa trên sự hối tiếc cung cấp thông tin trực tiếp về chiến lược tối ưu.
Một cơ chế như vậy đã dẫn đến một kết quả may mắn: học tăng cường không còn cần thiết nữa!
Bằng cách này, các vấn đề RLHF có thể được giải quyết trong khuôn khổ MDP có mục đích chung với các trạng thái chiều và không gian hành động cao.
Các nhà nghiên cứu đề xuất rằng cái nhìn sâu sắc cốt lõi của kết quả nghiên cứu của họ là kết hợp khung ưu tiên dựa trên sự hối tiếc với nguyên tắc entropy tối đa (MaxEnt) có thể thu được sự lưỡng tính giữa chức năng chi phối và chiến lược. Bằng cách thay thế tối ưu hóa lợi thế bằng tối ưu hóa chiến lược, mục tiêu học tập có giám sát thuần túy có thể được rút ra và giá trị tối ưu của nó là chiến lược tối ưu theo phần thưởng của chuyên gia. Nhóm nghiên cứu đặt tên cho phương pháp này là Học tập ưu tiên tương phản (CPL) vì nó giống với mục tiêu được chấp nhận rộng rãi của học tập tương phản.
CPL có ba lợi thế chính so với các phương pháp trước đây.
Đầu tiên, CPL mở rộng quy mô như học có giám sát vì nó chỉ sử dụng các mục tiêu được giám sát để phù hợp với thế mạnh tối ưu mà không sử dụng bất kỳ độ dốc chiến lược hoặc lập trình động nào.
Thứ hai, CPL là một cách tiếp cận hoàn toàn ngoài chính sách, vì vậy nó có thể sử dụng hiệu quả bất kỳ nguồn dữ liệu tối ưu ngoại tuyến nào.
Thứ ba, CPL có thể được áp dụng cho bất kỳ quy trình quyết định Markov (MDP) nào để nó có thể học hỏi từ các truy vấn ưu tiên trên dữ liệu trình tự.
Theo nhóm nghiên cứu, không có phương pháp RLHF nào trước đây đáp ứng cả ba tiêu chí này. Để chỉ ra rằng phương pháp CPL phù hợp với ba mô tả trên, các nhà nghiên cứu đã tiến hành các thí nghiệm và kết quả cho thấy phương pháp này có thể giải quyết hiệu quả vấn đề ra quyết định tuần tự với dữ liệu chiến lược phân ly dưới mức tối ưu và chiều cao.
Đáng chú ý, họ phát hiện ra rằng CPL có thể học hiệu quả các chiến lược hoạt động mở rộng theo thời gian bằng cách sử dụng cùng một quy trình tinh chỉnh RLHF như mô hình đàm thoại trên điểm chuẩn MetaWorld.
Cụ thể, họ sử dụng phương pháp học tập có giám sát để đào tạo trước các chiến lược về quan sát hình ảnh chiều cao và sau đó tinh chỉnh chúng bằng cách sử dụng các tùy chọn. Không cần lập trình động hoặc độ dốc chính sách, CPL có thể đạt được hiệu suất tương tự như cách tiếp cận dựa trên học tập tăng cường tiên nghiệm. Đồng thời, phương pháp CPL nhanh hơn 1, 6 lần và hiệu suất tham số nhanh hơn bốn lần. Khi sử dụng dữ liệu ưu tiên chuyên sâu hơn, hiệu suất của CPL vượt trội hơn học tăng cường trên 5 trong số 6 nhiệm vụ.
Học ưu tiên tương phản
Ý tưởng cốt lõi của phương pháp này rất đơn giản: các nhà nghiên cứu nhận thấy rằng khi sử dụng khung học tăng cường entropy tối đa, hàm thống trị được sử dụng trong mô hình ưu tiên hối tiếc có thể dễ dàng thay thế bằng xác suất logarit của chiến lược. Tuy nhiên, sự thay thế đơn giản này có thể mang lại lợi ích rất lớn. Nếu bạn sử dụng xác suất logarit của chiến lược, bạn không cần phải học hàm lợi thế hoặc đối phó với các vấn đề tối ưu hóa liên quan đến các thuật toán học tập giống như củng cố.
Điều này không chỉ tạo ra một mô hình ưu tiên hối tiếc được liên kết chặt chẽ hơn, các nhà nghiên cứu cho biết, mà còn có thể dựa hoàn toàn vào việc học có giám sát để học hỏi từ phản hồi của con người.
Mục tiêu CPL được suy ra đầu tiên và nó được chỉ ra rằng đối với hàm phần thưởng người dùng chuyên gia r \ _E với dữ liệu không giới hạn, phương pháp hội tụ đến chiến lược tối ưu. Mối liên hệ giữa CPL và các phương pháp học tập có giám sát khác sau đó sẽ được giải thích. Cuối cùng, điều tra viên sẽ giải thích làm thế nào CPL có thể được sử dụng trong thực tế. Họ nói rằng các thuật toán này thuộc về một loại phương pháp mới để giải quyết các vấn đề ra quyết định tuần tự, có hiệu quả cao vì chúng có thể học các chiến lược trực tiếp từ các sở thích dựa trên sự hối tiếc mà không cần học tăng cường.
Khi sử dụng mô hình ưu tiên hối tiếc, tập dữ liệu ưu tiên D \ _pref chứa thông tin về hàm thống trị tối ưu A ^ ∗ (s, a). Chúng ta có thể trực giác nghĩ rằng hàm này đo lường mức độ tồi tệ của a đối với một hành động nhất định so với hành động được tạo ra bởi chiến lược tối ưu ở trạng thái s.
Do đó, theo định nghĩa, hành động tối đa hóa lợi thế tối ưu là hành động tối ưu và học chức năng lợi thế tối ưu từ sở thích sẽ cho phép người ta trích xuất chiến lược tối ưu một cách trực quan.
Cụ thể, nhóm nghiên cứu đã chứng minh định lý sau:
Kết nối với học tập tương phản. Cách tiếp cận CPL trực tiếp sử dụng mục tiêu so sánh để học chiến lược. Các nhà nghiên cứu cho biết họ hy vọng CPL sẽ mở rộng quy mô tốt hơn các phương pháp học tăng cường sử dụng các thuật toán học tăng cường truyền thống, do sự thành công đã được chứng minh của các mục tiêu học tập tương phản với các bộ dữ liệu lớn và mạng lưới thần kinh.
Cân nhắc thực tế
Khung học tập ưu tiên tương phản cung cấp một chức năng mất mát chung có thể được sử dụng để học các chiến lược từ các sở thích dựa trên sức mạnh, từ đó nhiều thuật toán có thể được rút ra. Sau đây là một ví dụ thực tế về một khung CPL cụ thể hoạt động tốt.
CPL với dữ liệu ngoại tuyến hạn chế. Mặc dù CPL có thể hội tụ thành một chiến lược tối ưu với dữ liệu ưu tiên không giới hạn, nhưng trên thực tế, chúng ta thường quan tâm đến việc học hỏi từ một tập dữ liệu ngoại tuyến hạn chế. Trong thiết lập này, các chính sách ngoại suy quá xa so với hỗ trợ của tập dữ liệu hoạt động kém vì các hành động chúng thực hiện dẫn đến trạng thái không phân phối.
Chính quy hóa. Trong cài đặt hữu hạn, chúng tôi muốn chọn một chiến lược giảm thiểu hàm mất CPL trong khi đưa ra xác suất cao hơn cho các hành động trong tập dữ liệu đó. Để làm điều này, nhà nghiên cứu sử dụng một bộ quy tắc bảo thủ để có được chức năng tổn thất sau: khi chiến lược có xác suất hành động cao hơn trong D \ _pref, tổn thất thấp hơn được phân bổ, do đó đảm bảo rằng nó nằm trong phân phối.
Thử nghiệm và kết quả
Phần này sẽ trả lời các câu hỏi sau về CPL: 1. CPL có thể điều chỉnh hiệu quả các chính sách dựa trên các ưu tiên dựa trên sự hối tiếc không?2. CPL có thể được thu nhỏ cho các vấn đề kiểm soát chiều cao và mạng lớn hơn không?3. Những thành phần nào của CPL là quan trọng để đạt được hiệu suất cao?
Dữ liệu ưu tiên. Sử dụng dữ liệu và sở thích triển khai phân ly dưới mức tối ưu, các nhà điều tra đã đánh giá khả năng của CPL để tìm hiểu các chiến lược cho MDP chung.
Phương pháp điểm chuẩn. Ba phương pháp điểm chuẩn đã được xem xét trong thử nghiệm: tinh chỉnh có giám sát (SFT), ưu tiên học Q ngầm (P-IQL), % BC (đào tạo chính sách bằng cách nhân bản hành vi của X% triển khai hàng đầu).
CPL hoạt động như thế nào?**
CPL hoạt động như thế nào khi sử dụng các quan sát dựa trên trạng thái? Đối với kết quả thí nghiệm dựa trên trạng thái, hàng 1 và 3 của Bảng 1 chủ yếu hiển thị.
Khi sử dụng dữ liệu so sánh thưa thớt hơn (hàng 3), CPL vượt trội hơn cách tiếp cận trước đó trên 5 trong số 6 môi trường và lợi thế so với P-IQL hầu hết là rõ ràng, đặc biệt là trong môi trường Nhấn nút, Chọn thùng rác và Quét vào môi trường. Khi áp dụng cho các bộ dữ liệu có so sánh chuyên sâu hơn, CPL thậm chí còn có lợi hơn P-IQL (hàng 1) và có ý nghĩa trong mọi bối cảnh.
Hàng 2 và 4 của Bảng 1 cho kết quả của thử nghiệm dựa trên hình ảnh. Họ đã có một phát hiện thú vị: đối với SFT, hiệu suất tăng nhẹ, nhưng sự cải thiện trong P-IQL là đáng chú ý. Khi học dữ liệu ưu tiên chuyên sâu hơn (hàng 2), CPL vẫn hoạt động tốt hơn P-IQL trên 4 trong số 6 môi trường và có thể so sánh với cả hai trên Sweep In. Khi học dữ liệu so sánh thưa thớt hơn (hàng 4), CPL và P-IQL thực hiện như nhau trên hầu hết các tác vụ.
Điều này càng nổi bật hơn khi xem xét rằng CPL có độ phức tạp thấp hơn đáng kể! P-IQL phải học hàm phần thưởng, hàm Q, hàm giá trị và chiến lược. CPL không yêu cầu bất kỳ chiến lược nào trong số chúng, nó chỉ cần học một chiến lược duy nhất, giúp giảm đáng kể thời gian đào tạo và số lượng thông số.
Như thể hiện trong Bảng 2 dưới đây, CPL chạy nhanh hơn 1,62 lần so với P-IQL trên các tác vụ hình ảnh và có ít hơn một phần tư số lượng tham số. Khi mạng lưới phát triển, hiệu suất đạt được từ việc sử dụng CPL sẽ chỉ tăng lên.
Có thể thấy từ kết quả thí nghiệm, khoảng cách giữa CPL và phương pháp chuẩn lớn hơn khi sử dụng các bộ dữ liệu có so sánh chuyên sâu hơn. Điều này phù hợp với kết quả nghiên cứu trước đây trong học tập tương phản.
Để điều tra hiệu ứng này, hiệu suất của CPL được đánh giá bằng cách tăng số lượng so sánh được lấy mẫu trên mỗi đoạn dựa trên bộ dữ liệu kích thước cố định gồm 5.000 đoạn. Hình 2 dưới đây cho thấy kết quả trên nhiệm vụ Mở ngăn kéo cho các quan sát dựa trên trạng thái.
Nhìn chung, CPL có lợi khi số lượng so sánh được lấy mẫu trên mỗi clip tăng lên, ngoại trừ nhiệm vụ Plate Slide.