Kita tahu bahwa kesuksesan ChatGPT tidak terlepas dari "senjata rahasia" RLHF. Namun, RLHF tidak sempurna, dan ada tantangan optimasi yang sulit untuk dihadapi. Dalam makalah ini, tim dari Stanford University dan lembaga penelitian lainnya mengeksplorasi penggantian "pembelajaran penguatan" dengan "pembelajaran pilihan kontras", yang memiliki kinerja yang baik dalam hal kecepatan dan kinerja.
Sumber gambar: Dihasilkan oleh Unbounded AI
Pembelajaran penguatan berdasarkan umpan balik manusia (RLHF) telah menjadi paradigma populer dalam hal menyelaraskan model dengan niat manusia. Biasanya, algoritma RLHF bekerja dalam dua fase: pertama, mempelajari fungsi hadiah menggunakan preferensi manusia, dan kedua, menyelaraskan model dengan mengoptimalkan hadiah yang dipelajari menggunakan pembelajaran penguatan.
Paradigma RLHF mengasumsikan bahwa distribusi preferensi manusia mengikuti hadiah, tetapi penelitian terbaru menunjukkan bahwa ini tidak terjadi, dan bahwa preferensi manusia benar-benar mengikuti nilai penyesalan dari strategi optimal pengguna. Dengan demikian, fungsi penghargaan belajar berdasarkan umpan balik tidak hanya didasarkan pada asumsi yang salah tentang preferensi manusia, tetapi juga mengarah pada teka-teki optimasi keras yang berasal dari gradien kebijakan atau bootstrapping dalam pembelajaran penguatan.
Karena tantangan optimasi ini, metode RLHF saat ini membatasi diri pada pengaturan bandit berbasis konteks (misalnya, dalam model bahasa besar) atau dimensi pengamatan mereka sendiri (misalnya, robotika berbasis negara).
Untuk mengatasi tantangan ini, tim peneliti di Stanford dan universitas lain telah mengusulkan serangkaian algoritma baru yang dapat menggunakan model preferensi manusia berdasarkan penyesalan untuk mengoptimalkan perilaku saat menggunakan umpan balik manusia, daripada model yang sebagian bermanfaat yang diterima secara luas oleh masyarakat dan hanya mempertimbangkan jumlah hadiah. Tidak seperti model pengembalian parsial, model berbasis penyesalan memberikan informasi langsung tentang strategi optimal.
Mekanisme seperti itu telah menghasilkan hasil yang menguntungkan: pembelajaran penguatan tidak lagi diperlukan!
Dengan cara ini, masalah RLHF dapat diselesaikan dalam kerangka MDP tujuan umum dengan status dimensi tinggi dan ruang tindakan.
Para peneliti mengusulkan bahwa wawasan inti dari hasil penelitian mereka adalah bahwa menggabungkan kerangka preferensi berbasis penyesalan dengan prinsip entropi maksimum (MaxEnt) dapat memperoleh bijeksi antara fungsi dominan dan strategi. Dengan mengganti optimalisasi keuntungan dengan optimalisasi strategi, tujuan pembelajaran murni yang diawasi dapat diturunkan, dan nilai optimalnya adalah strategi optimal di bawah penghargaan ahli. Tim menamai pendekatan Pembelajaran Preferensi Kontras (CPL) karena menyerupai tujuan pembelajaran kontras yang diterima secara luas.
*Alamat:
Kode Alamat:
CPL memiliki tiga keunggulan utama dibandingkan pendekatan sebelumnya.
Pertama, skala CPL seperti pembelajaran yang diawasi karena hanya menggunakan tujuan yang diawasi untuk mencocokkan kekuatan optimal tanpa menggunakan gradien strategis atau pemrograman dinamis.
Kedua, CPL adalah pendekatan yang sepenuhnya di luar kebijakan, sehingga dapat secara efektif menggunakan sumber data offline yang kurang optimal.
Ketiga, CPL dapat diterapkan pada setiap proses keputusan Markov (MDP) sehingga dapat belajar dari kueri preferensi pada data urutan.
Menurut tim, tidak ada metode RLHF sebelumnya yang memenuhi ketiga kriteria ini. Untuk menunjukkan bahwa metode CPL sesuai dengan tiga deskripsi di atas, para peneliti melakukan eksperimen, dan hasilnya menunjukkan bahwa metode tersebut dapat secara efektif menangani masalah pengambilan keputusan sekuensial dengan data strategi disosiasi suboptimal dan dimensi tinggi.
Khususnya, mereka menemukan bahwa CPL mampu secara efektif mempelajari strategi operasional yang berskala dari waktu ke waktu menggunakan proses fine-tuning RLHF yang sama dengan model percakapan pada tolok ukur MetaWorld.
Secara khusus, mereka menggunakan pendekatan pembelajaran yang diawasi untuk melatih strategi pengamatan gambar dimensi tinggi dan kemudian menyempurnakannya menggunakan preferensi. Tanpa perlu pemrograman dinamis atau gradien kebijakan, CPL dapat mencapai kinerja yang sama dengan pendekatan berbasis pembelajaran penguatan apriori. Pada saat yang sama, metode CPL 1,6 kali lebih cepat dan efisiensi parameter empat kali lebih cepat. Ketika menggunakan data preferensi yang lebih intensif, kinerja CPL mengungguli pembelajaran penguatan pada 5 dari 6 tugas.
Pembelajaran Preferensi Kontras
Ide inti dari pendekatan ini sederhana: para peneliti menemukan bahwa ketika menggunakan kerangka pembelajaran penguatan entropi maksimum, fungsi dominasi yang digunakan dalam model preferensi penyesalan dapat dengan mudah diganti dengan probabilitas logaritmik strategi. Namun, penggantian sederhana ini dapat membawa manfaat besar. Jika Anda menggunakan probabilitas logaritmik strategi, Anda tidak perlu mempelajari fungsi keuntungan atau berurusan dengan masalah optimasi yang terkait dengan algoritma pembelajaran seperti penguatan.
Ini tidak hanya menciptakan model preferensi penyesalan yang lebih selaras, kata para peneliti, tetapi juga dapat sepenuhnya mengandalkan pembelajaran yang diawasi untuk belajar dari umpan balik manusia.
Target CPL pertama kali diturunkan, dan ditunjukkan bahwa untuk fungsi penghargaan pengguna ahli r_E dengan data tak terbatas, metode ini menyatu dengan strategi optimal. Hubungan antara CPL dan metode pembelajaran yang diawasi lainnya kemudian akan dijelaskan. Akhirnya, peneliti akan menjelaskan bagaimana CPL dapat digunakan dalam praktik. Mereka mengatakan bahwa algoritma ini termasuk dalam kategori metode baru untuk memecahkan masalah pengambilan keputusan berurutan, yang sangat efisien karena mereka dapat mempelajari strategi langsung dari preferensi berbasis penyesalan tanpa perlu pembelajaran penguatan.
Dari Keuntungan Optimal ke Strategi Optimal
Saat menggunakan model preferensi penyesalan, himpunan data preferensi D_pref berisi informasi tentang fungsi dominasi optimal A^∗ (s, a). Kita dapat secara intuitif berpikir bahwa fungsi ini mengukur seberapa buruk suatu tindakan untuk tindakan tertentu daripada tindakan yang dihasilkan oleh strategi optimal dalam keadaan.
Oleh karena itu, menurut definisi, tindakan yang memaksimalkan keuntungan optimal adalah tindakan optimal, dan mempelajari fungsi keuntungan optimal dari preferensi harus memungkinkan seseorang untuk secara intuitif mengekstrak strategi optimal.
Secara khusus, tim membuktikan teorema berikut:
Manfaat Strategi Pembelajaran Langsung: Ada banyak manfaat praktis dan teoritis untuk belajar π secara langsung dengan cara ini. Yang paling jelas dari ini mungkin adalah bahwa jika Anda mempelajari strategi secara langsung, Anda tidak perlu mempelajari fungsi lain, seperti fungsi hadiah atau fungsi nilai. Ini membuat CPL jauh lebih sederhana daripada metode sebelumnya.
Koneksi ke pembelajaran kontras. Pendekatan CPL secara langsung menggunakan tujuan perbandingan untuk pembelajaran strategi. Para peneliti mengatakan mereka mengharapkan CPL untuk skala lebih baik daripada metode pembelajaran penguatan menggunakan algoritma pembelajaran penguatan tradisional, mengingat keberhasilan terbukti dari tujuan pembelajaran kontras dengan dataset besar dan jaringan saraf.
Pertimbangan Praktis
Kerangka pembelajaran preferensi kontras menyediakan fungsi kerugian generik yang dapat digunakan untuk mempelajari strategi dari preferensi berbasis kekuatan, dari mana banyak algoritma dapat diturunkan. Berikut ini adalah contoh praktis dari kerangka CPL tertentu yang bekerja dengan baik.
CPL dengan data offline terbatas. Meskipun CPL dapat menyatu dengan strategi optimal dengan data preferensi tak terbatas, dalam praktiknya kami umumnya peduli dengan belajar dari dataset offline yang terbatas. Dalam penyiapan ini, kebijakan yang memperkirakan terlalu jauh di luar dukungan himpunan data berkinerja buruk karena tindakan yang mereka ambil menghasilkan status di luar distribusi.
Regularisasi. Dalam pengaturan terbatas, kami ingin memilih strategi yang meminimalkan fungsi kerugian CPL sambil memberikan probabilitas yang lebih tinggi untuk tindakan dalam dataset tersebut. Untuk melakukan ini, peneliti menggunakan regularizer konservatif untuk mendapatkan fungsi kerugian berikut: ketika strategi memiliki probabilitas tindakan yang lebih tinggi dalam D \ _pref, kerugian yang lebih rendah dialokasikan, sehingga memastikan bahwa itu ada dalam distribusi.
Pra-pelatihan. Tim menemukan bahwa π kebijakan telah dilatih sebelumnya menggunakan pendekatan Behavioral Cloning (BC) untuk mendapatkan hasil yang lebih baik. Jadi, sebelum menyempurnakan preferensi penggunaan kerugian CPL, tim menggunakan target kloning kemungkinan maksimum standar untuk melatih strategi, yaitu:
Eksperimen dan Hasil
Bagian ini akan menjawab pertanyaan-pertanyaan berikut tentang CPL: 1. Dapatkah CPL secara efektif menyempurnakan kebijakan berdasarkan preferensi berbasis penyesalan?2. Dapatkah CPL diskalakan untuk masalah kontrol dimensi tinggi dan jaringan yang lebih besar?3. Komponen CPL apa yang penting untuk mencapai kinerja tinggi?
Data Preferensi. Menggunakan data dan preferensi peluncuran disosiatif suboptimal, para peneliti menilai kemampuan CPL untuk mempelajari strategi MDP generik.
Metodologi benchmark. Tiga metode tolok ukur dipertimbangkan dalam percobaan: supervised fine-tuning (SFT), preference implicit Q learning (P-IQL), % BC (melatih kebijakan dengan kloning perilaku X% teratas dari peluncuran).
Bagaimana kinerja CPL?**
Bagaimana kinerja CPL saat menggunakan pengamatan berbasis negara? Untuk hasil eksperimen berbasis negara, baris 1 dan 3 dari Tabel 1 terutama terlihat.
Saat menggunakan data komparatif yang lebih jarang (baris 3), CPL mengungguli pendekatan sebelumnya pada 5 dari 6 lingkungan, dan keunggulan dibandingkan P-IQL sebagian besar jelas, terutama di lingkungan Button Press, Bin Picking, dan Sweep Into. Ketika diterapkan pada kumpulan data dengan perbandingan yang lebih intensif, CPL bahkan lebih menguntungkan daripada P-IQL (baris 1) dan signifikan dalam semua konteks.
Untuk menguji apakah target pengawasan CPL dapat diperluas ke masalah kontrol kontinu dimensi tinggi, tim membuat dataset MetaWorld menjadi 64 × 64 gambar.
Baris 2 dan 4 dari Tabel 1 memberikan hasil percobaan berbasis gambar. Mereka mendapat temuan menarik: untuk SFT, ada sedikit peningkatan kinerja, tetapi peningkatan P-IQL terlihat. Ketika mempelajari data preferensi yang lebih intensif (baris 2), CPL masih mengungguli P-IQL pada 4 dari 6 lingkungan dan sebanding dengan keduanya pada Sweep In. Saat mempelajari data komparatif yang lebih jarang (baris 4), CPL dan P-IQL berkinerja sama pada sebagian besar tugas.
Ini semua lebih mencolok mengingat CPL memiliki kompleksitas yang jauh lebih rendah! P-IQL harus mempelajari fungsi hadiah, fungsi Q, fungsi nilai, dan strategi. CPL tidak memerlukan salah satu dari mereka, hanya perlu mempelajari satu strategi, yang sangat mengurangi waktu pelatihan dan jumlah parameter.
Seperti yang ditunjukkan pada Tabel 2 di bawah ini, CPL berjalan 1,62 kali lebih cepat daripada P-IQL pada tugas gambar dan memiliki kurang dari seperempat jumlah parameter. Seiring pertumbuhan jaringan, peningkatan kinerja dari penggunaan CPL hanya akan meningkat.
Komponen apa yang berkontribusi terhadap kinerja CPL?
Seperti yang dapat dilihat dari hasil eksperimen, kesenjangan antara CPL dan metode benchmark lebih besar ketika menggunakan dataset dengan perbandingan yang lebih intensif. Hal ini konsisten dengan hasil penelitian sebelumnya dalam pembelajaran kontrasif.
Untuk menyelidiki efek ini, kinerja CPL dievaluasi dengan meningkatkan jumlah perbandingan sampel per fragmen berdasarkan dataset ukuran tetap 5.000 fragmen. Gambar 2 di bawah ini menunjukkan hasil pada tugas Drawer Open untuk pengamatan berbasis negara.
Secara keseluruhan, CPL mendapat manfaat ketika jumlah perbandingan sampel per klip meningkat, dengan pengecualian tugas Plate Slide.
Akhirnya, tim juga melakukan studi ablasi hiperparameter CPL (nilai suhu α dan bias regularizer λ), yang juga didasarkan pada tugas laci terbuka, yang hasilnya ditunjukkan pada sisi kanan Gambar 2. Sementara CPL bekerja dengan baik dengan nilai-nilai ini, percobaan telah menemukan bahwa CPL dapat berkinerja lebih baik dengan penyetelan hiperparameter yang tepat, terutama λ.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Stanford mengusulkan pembelajaran preferensi kontras: belajar dari umpan balik manusia tanpa pembelajaran penguatan
Sumber artikel: Heart of the Machine
Pembelajaran penguatan berdasarkan umpan balik manusia (RLHF) telah menjadi paradigma populer dalam hal menyelaraskan model dengan niat manusia. Biasanya, algoritma RLHF bekerja dalam dua fase: pertama, mempelajari fungsi hadiah menggunakan preferensi manusia, dan kedua, menyelaraskan model dengan mengoptimalkan hadiah yang dipelajari menggunakan pembelajaran penguatan.
Paradigma RLHF mengasumsikan bahwa distribusi preferensi manusia mengikuti hadiah, tetapi penelitian terbaru menunjukkan bahwa ini tidak terjadi, dan bahwa preferensi manusia benar-benar mengikuti nilai penyesalan dari strategi optimal pengguna. Dengan demikian, fungsi penghargaan belajar berdasarkan umpan balik tidak hanya didasarkan pada asumsi yang salah tentang preferensi manusia, tetapi juga mengarah pada teka-teki optimasi keras yang berasal dari gradien kebijakan atau bootstrapping dalam pembelajaran penguatan.
Karena tantangan optimasi ini, metode RLHF saat ini membatasi diri pada pengaturan bandit berbasis konteks (misalnya, dalam model bahasa besar) atau dimensi pengamatan mereka sendiri (misalnya, robotika berbasis negara).
Untuk mengatasi tantangan ini, tim peneliti di Stanford dan universitas lain telah mengusulkan serangkaian algoritma baru yang dapat menggunakan model preferensi manusia berdasarkan penyesalan untuk mengoptimalkan perilaku saat menggunakan umpan balik manusia, daripada model yang sebagian bermanfaat yang diterima secara luas oleh masyarakat dan hanya mempertimbangkan jumlah hadiah. Tidak seperti model pengembalian parsial, model berbasis penyesalan memberikan informasi langsung tentang strategi optimal.
Mekanisme seperti itu telah menghasilkan hasil yang menguntungkan: pembelajaran penguatan tidak lagi diperlukan!
Dengan cara ini, masalah RLHF dapat diselesaikan dalam kerangka MDP tujuan umum dengan status dimensi tinggi dan ruang tindakan.
Para peneliti mengusulkan bahwa wawasan inti dari hasil penelitian mereka adalah bahwa menggabungkan kerangka preferensi berbasis penyesalan dengan prinsip entropi maksimum (MaxEnt) dapat memperoleh bijeksi antara fungsi dominan dan strategi. Dengan mengganti optimalisasi keuntungan dengan optimalisasi strategi, tujuan pembelajaran murni yang diawasi dapat diturunkan, dan nilai optimalnya adalah strategi optimal di bawah penghargaan ahli. Tim menamai pendekatan Pembelajaran Preferensi Kontras (CPL) karena menyerupai tujuan pembelajaran kontras yang diterima secara luas.
CPL memiliki tiga keunggulan utama dibandingkan pendekatan sebelumnya.
Pertama, skala CPL seperti pembelajaran yang diawasi karena hanya menggunakan tujuan yang diawasi untuk mencocokkan kekuatan optimal tanpa menggunakan gradien strategis atau pemrograman dinamis.
Kedua, CPL adalah pendekatan yang sepenuhnya di luar kebijakan, sehingga dapat secara efektif menggunakan sumber data offline yang kurang optimal.
Ketiga, CPL dapat diterapkan pada setiap proses keputusan Markov (MDP) sehingga dapat belajar dari kueri preferensi pada data urutan.
Menurut tim, tidak ada metode RLHF sebelumnya yang memenuhi ketiga kriteria ini. Untuk menunjukkan bahwa metode CPL sesuai dengan tiga deskripsi di atas, para peneliti melakukan eksperimen, dan hasilnya menunjukkan bahwa metode tersebut dapat secara efektif menangani masalah pengambilan keputusan sekuensial dengan data strategi disosiasi suboptimal dan dimensi tinggi.
Khususnya, mereka menemukan bahwa CPL mampu secara efektif mempelajari strategi operasional yang berskala dari waktu ke waktu menggunakan proses fine-tuning RLHF yang sama dengan model percakapan pada tolok ukur MetaWorld.
Secara khusus, mereka menggunakan pendekatan pembelajaran yang diawasi untuk melatih strategi pengamatan gambar dimensi tinggi dan kemudian menyempurnakannya menggunakan preferensi. Tanpa perlu pemrograman dinamis atau gradien kebijakan, CPL dapat mencapai kinerja yang sama dengan pendekatan berbasis pembelajaran penguatan apriori. Pada saat yang sama, metode CPL 1,6 kali lebih cepat dan efisiensi parameter empat kali lebih cepat. Ketika menggunakan data preferensi yang lebih intensif, kinerja CPL mengungguli pembelajaran penguatan pada 5 dari 6 tugas.
Pembelajaran Preferensi Kontras
Ide inti dari pendekatan ini sederhana: para peneliti menemukan bahwa ketika menggunakan kerangka pembelajaran penguatan entropi maksimum, fungsi dominasi yang digunakan dalam model preferensi penyesalan dapat dengan mudah diganti dengan probabilitas logaritmik strategi. Namun, penggantian sederhana ini dapat membawa manfaat besar. Jika Anda menggunakan probabilitas logaritmik strategi, Anda tidak perlu mempelajari fungsi keuntungan atau berurusan dengan masalah optimasi yang terkait dengan algoritma pembelajaran seperti penguatan.
Ini tidak hanya menciptakan model preferensi penyesalan yang lebih selaras, kata para peneliti, tetapi juga dapat sepenuhnya mengandalkan pembelajaran yang diawasi untuk belajar dari umpan balik manusia.
Target CPL pertama kali diturunkan, dan ditunjukkan bahwa untuk fungsi penghargaan pengguna ahli r_E dengan data tak terbatas, metode ini menyatu dengan strategi optimal. Hubungan antara CPL dan metode pembelajaran yang diawasi lainnya kemudian akan dijelaskan. Akhirnya, peneliti akan menjelaskan bagaimana CPL dapat digunakan dalam praktik. Mereka mengatakan bahwa algoritma ini termasuk dalam kategori metode baru untuk memecahkan masalah pengambilan keputusan berurutan, yang sangat efisien karena mereka dapat mempelajari strategi langsung dari preferensi berbasis penyesalan tanpa perlu pembelajaran penguatan.
Saat menggunakan model preferensi penyesalan, himpunan data preferensi D_pref berisi informasi tentang fungsi dominasi optimal A^∗ (s, a). Kita dapat secara intuitif berpikir bahwa fungsi ini mengukur seberapa buruk suatu tindakan untuk tindakan tertentu daripada tindakan yang dihasilkan oleh strategi optimal dalam keadaan.
Oleh karena itu, menurut definisi, tindakan yang memaksimalkan keuntungan optimal adalah tindakan optimal, dan mempelajari fungsi keuntungan optimal dari preferensi harus memungkinkan seseorang untuk secara intuitif mengekstrak strategi optimal.
Secara khusus, tim membuktikan teorema berikut:
Koneksi ke pembelajaran kontras. Pendekatan CPL secara langsung menggunakan tujuan perbandingan untuk pembelajaran strategi. Para peneliti mengatakan mereka mengharapkan CPL untuk skala lebih baik daripada metode pembelajaran penguatan menggunakan algoritma pembelajaran penguatan tradisional, mengingat keberhasilan terbukti dari tujuan pembelajaran kontras dengan dataset besar dan jaringan saraf.
Pertimbangan Praktis
Kerangka pembelajaran preferensi kontras menyediakan fungsi kerugian generik yang dapat digunakan untuk mempelajari strategi dari preferensi berbasis kekuatan, dari mana banyak algoritma dapat diturunkan. Berikut ini adalah contoh praktis dari kerangka CPL tertentu yang bekerja dengan baik.
CPL dengan data offline terbatas. Meskipun CPL dapat menyatu dengan strategi optimal dengan data preferensi tak terbatas, dalam praktiknya kami umumnya peduli dengan belajar dari dataset offline yang terbatas. Dalam penyiapan ini, kebijakan yang memperkirakan terlalu jauh di luar dukungan himpunan data berkinerja buruk karena tindakan yang mereka ambil menghasilkan status di luar distribusi.
Regularisasi. Dalam pengaturan terbatas, kami ingin memilih strategi yang meminimalkan fungsi kerugian CPL sambil memberikan probabilitas yang lebih tinggi untuk tindakan dalam dataset tersebut. Untuk melakukan ini, peneliti menggunakan regularizer konservatif untuk mendapatkan fungsi kerugian berikut: ketika strategi memiliki probabilitas tindakan yang lebih tinggi dalam D \ _pref, kerugian yang lebih rendah dialokasikan, sehingga memastikan bahwa itu ada dalam distribusi.
Eksperimen dan Hasil
Bagian ini akan menjawab pertanyaan-pertanyaan berikut tentang CPL: 1. Dapatkah CPL secara efektif menyempurnakan kebijakan berdasarkan preferensi berbasis penyesalan?2. Dapatkah CPL diskalakan untuk masalah kontrol dimensi tinggi dan jaringan yang lebih besar?3. Komponen CPL apa yang penting untuk mencapai kinerja tinggi?
Data Preferensi. Menggunakan data dan preferensi peluncuran disosiatif suboptimal, para peneliti menilai kemampuan CPL untuk mempelajari strategi MDP generik.
Metodologi benchmark. Tiga metode tolok ukur dipertimbangkan dalam percobaan: supervised fine-tuning (SFT), preference implicit Q learning (P-IQL), % BC (melatih kebijakan dengan kloning perilaku X% teratas dari peluncuran).
Bagaimana kinerja CPL?**
Bagaimana kinerja CPL saat menggunakan pengamatan berbasis negara? Untuk hasil eksperimen berbasis negara, baris 1 dan 3 dari Tabel 1 terutama terlihat.
Saat menggunakan data komparatif yang lebih jarang (baris 3), CPL mengungguli pendekatan sebelumnya pada 5 dari 6 lingkungan, dan keunggulan dibandingkan P-IQL sebagian besar jelas, terutama di lingkungan Button Press, Bin Picking, dan Sweep Into. Ketika diterapkan pada kumpulan data dengan perbandingan yang lebih intensif, CPL bahkan lebih menguntungkan daripada P-IQL (baris 1) dan signifikan dalam semua konteks.
Baris 2 dan 4 dari Tabel 1 memberikan hasil percobaan berbasis gambar. Mereka mendapat temuan menarik: untuk SFT, ada sedikit peningkatan kinerja, tetapi peningkatan P-IQL terlihat. Ketika mempelajari data preferensi yang lebih intensif (baris 2), CPL masih mengungguli P-IQL pada 4 dari 6 lingkungan dan sebanding dengan keduanya pada Sweep In. Saat mempelajari data komparatif yang lebih jarang (baris 4), CPL dan P-IQL berkinerja sama pada sebagian besar tugas.
Ini semua lebih mencolok mengingat CPL memiliki kompleksitas yang jauh lebih rendah! P-IQL harus mempelajari fungsi hadiah, fungsi Q, fungsi nilai, dan strategi. CPL tidak memerlukan salah satu dari mereka, hanya perlu mempelajari satu strategi, yang sangat mengurangi waktu pelatihan dan jumlah parameter.
Seperti yang ditunjukkan pada Tabel 2 di bawah ini, CPL berjalan 1,62 kali lebih cepat daripada P-IQL pada tugas gambar dan memiliki kurang dari seperempat jumlah parameter. Seiring pertumbuhan jaringan, peningkatan kinerja dari penggunaan CPL hanya akan meningkat.
Seperti yang dapat dilihat dari hasil eksperimen, kesenjangan antara CPL dan metode benchmark lebih besar ketika menggunakan dataset dengan perbandingan yang lebih intensif. Hal ini konsisten dengan hasil penelitian sebelumnya dalam pembelajaran kontrasif.
Untuk menyelidiki efek ini, kinerja CPL dievaluasi dengan meningkatkan jumlah perbandingan sampel per fragmen berdasarkan dataset ukuran tetap 5.000 fragmen. Gambar 2 di bawah ini menunjukkan hasil pada tugas Drawer Open untuk pengamatan berbasis negara.
Secara keseluruhan, CPL mendapat manfaat ketika jumlah perbandingan sampel per klip meningkat, dengan pengecualian tugas Plate Slide.