Stanford, zıt tercihli öğrenmeyi önermektedir: pekiştirmeli öğrenme olmadan insan geri bildiriminden öğrenme

Makale kaynağı: Makinenin Kalbi

ChatGPT'nin başarısının RLHF'nin "gizli silahından" ayrılamayacağını biliyoruz. Bununla birlikte, RLHF kusursuz değildir ve üstesinden gelinmesi zor optimizasyon zorlukları vardır. Bu makalede, Stanford Üniversitesi ve diğer araştırma kurumlarından bir ekip, "pekiştirmeli öğrenmeyi" hız ve performans açısından iyi performansa sahip olan "kontrast tercihli öğrenme" ile değiştirmeyi araştırıyor.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

İnsan geri bildirimine dayalı pekiştirmeli öğrenme (RLHF), modelleri insan niyetleriyle uyumlu hale getirme açısından popüler bir paradigma haline gelmiştir. Tipik olarak, RLHF algoritmaları iki aşamada çalışır: birincisi, insan tercihlerini kullanarak bir ödül işlevini öğrenmek ve ikincisi, pekiştirmeli öğrenmeyi kullanarak öğrenilen ödülü optimize ederek modeli hizalamak.

RLHF paradigması, insan tercihlerinin dağılımının ödülü takip ettiğini varsayar, ancak son çalışmalar durumun böyle olmadığını ve insan tercihlerinin aslında kullanıcının optimal stratejisinin pişmanlık değerini takip ettiğini göstermektedir. Bu nedenle, geri bildirime dayalı öğrenme ödülü işlevleri, yalnızca insan tercihleri hakkında kusurlu bir varsayıma dayanmakla kalmaz, aynı zamanda politika gradyanlarından veya pekiştirmeli öğrenmede önyüklemeden kaynaklanan zorlu optimizasyon bulmacalarına da yol açar.

Bu optimizasyon zorlukları nedeniyle, günümüzün RLHF yöntemleri kendilerini bağlam tabanlı haydut ayarlarıyla (örneğin, büyük dil modellerinde) veya kendi gözlem boyutlarıyla (örneğin, durum tabanlı robotik) sınırlar.

Bu zorlukların üstesinden gelmek için, Stanford ve diğer üniversitelerdeki bir araştırma ekibi, topluluk tarafından yaygın olarak kabul edilen ve yalnızca ödüllerin toplamını dikkate alan kısmen ödüllendirici bir model yerine, insan geri bildirimini kullanırken davranışı optimize etmek için pişmanlığa dayalı bir insan tercihi modeli kullanabilen bir dizi yeni algoritma önerdi. Kısmi getiri modellerinden farklı olarak, pişmanlığa dayalı modeller optimal strateji hakkında doğrudan bilgi sağlar.

Böyle bir mekanizma şanslı bir sonuca yol açtı: pekiştirmeli öğrenme artık gerekli değil!

Bu şekilde, RLHF problemleri, yüksek boyutlu durumlar ve eylem alanları ile genel amaçlı bir MDP çerçevesinde çözülebilir.

Araştırmacılar, araştırma sonuçlarının temel içgörüsünün, pişmanlığa dayalı tercih çerçevesini maksimum entropi ilkesi (MaxEnt) ile birleştirmenin, baskın işlev ile strateji arasında bir bijeksiyon elde edebileceği olduğunu öne sürdüler. Avantajın optimizasyonunu stratejinin optimizasyonu ile değiştirerek, saf denetimli öğrenme hedefi elde edilebilir ve optimal değeri, uzman ödülü altındaki optimal stratejidir. Ekip, yaklaşıma Kontrastlı Tercihli Öğrenme (CPL) adını verdi çünkü yaygın olarak kabul edilen kontrastlı öğrenme hedefine benziyor.

*Adres:

  • Kod Adresi:

CPL'nin önceki yaklaşımlara göre üç temel avantajı vardır.

İlk olarak, CPL, herhangi bir stratejik gradyan veya dinamik programlama kullanmadan optimum güçlü yönleri eşleştirmek için yalnızca denetimli hedefleri kullandığından, denetimli öğrenme gibi ölçeklenir.

İkincisi, CPL tamamen politika dışı bir yaklaşımdır, bu nedenle herhangi bir çevrimdışı optimal olmayan veri kaynağını etkili bir şekilde kullanabilir.

Üçüncüsü, CPL, herhangi bir Markov karar sürecine (MDP) uygulanabilir, böylece dizi verileri üzerindeki tercih sorgularından öğrenebilir.

Ekibe göre, önceki RLHF yöntemlerinin hiçbiri bu kriterlerin üçünü de karşılamıyordu. CPL yönteminin yukarıdaki üç tanıma uyduğunu göstermek için araştırmacılar deneyler yaptılar ve sonuçlar, yöntemin optimal olmayan ve yüksek boyutlu ayrışma stratejisi verileriyle sıralı karar verme problemiyle etkili bir şekilde başa çıkabileceğini gösteriyor.

Özellikle, CPL'nin MetaWorld kıyaslamasındaki konuşma modeliyle aynı RLHF ince ayar sürecini kullanarak zaman içinde ölçeklenen operasyonel stratejileri etkili bir şekilde öğrenebildiğini buldular.

Özellikle, yüksek boyutlu görüntü gözlemi stratejilerini önceden eğitmek için denetimli bir öğrenme yaklaşımı kullanırlar ve ardından tercihleri kullanarak ince ayar yaparlar. Dinamik programlamaya veya politika gradyanlarına ihtiyaç duymadan, CPL, a priori pekiştirmeli öğrenme tabanlı yaklaşımla aynı performansı elde edebilir. Aynı zamanda, CPL yöntemi 1,6 kat daha hızlıdır ve parametre verimliliği dört kat daha hızlıdır. Daha yoğun tercih verileri kullanıldığında, CPL'nin performansı 6 görevin 5'inde pekiştirmeli öğrenmeden daha iyi performans gösterdi.

Karşıtlık Tercihi Öğrenme

Bu yaklaşımın temel fikri basittir: Araştırmacılar, maksimum entropi pekiştirmeli öğrenme çerçevesi kullanıldığında, pişmanlık tercihi modelinde kullanılan baskınlık fonksiyonunun, stratejinin logaritmik olasılığı ile kolayca değiştirilebileceğini bulmuşlardır. Bununla birlikte, bu basit değiştirme büyük faydalar sağlayabilir. Stratejinin logaritmik olasılığını kullanırsanız, avantaj fonksiyonunu öğrenmenize veya pekiştirme benzeri öğrenme algoritmalarıyla ilişkili optimizasyon problemleriyle uğraşmanıza gerek yoktur.

Araştırmacılar, bunun yalnızca daha yakından hizalanmış bir pişmanlık tercihi modeli yaratmakla kalmayıp, aynı zamanda insan geri bildirimlerinden öğrenmek için tamamen denetimli öğrenmeye de güvenebileceğini söylüyor.

CPL hedefi ilk olarak türetilir ve sınırsız veri içeren uzman kullanıcı ödül işlevi r_E için yöntemin optimal stratejiye yakınsadığı gösterilmiştir. CPL ve diğer denetimli öğrenme yöntemleri arasındaki bağlantı daha sonra açıklanacaktır. Son olarak, araştırmacı CPL'nin pratikte nasıl kullanılabileceğini açıklayacaktır. Bu algoritmaların, sıralı karar verme problemlerini çözmek için yeni bir yöntem kategorisine ait olduğunu ve bu yöntemlerin oldukça verimli olduğunu, çünkü pekiştirmeli öğrenmeye ihtiyaç duymadan doğrudan pişmanlığa dayalı tercihlerden stratejiler öğrenebildiklerini söylüyorlar.

Optimum Avantajdan Optimal Stratejiye

Pişmanlık tercih modelini kullanırken, tercih veri kümesi D_pref optimal baskınlık fonksiyonu A^∗ (s, a) hakkında bilgi içerir. Sezgisel olarak, bu fonksiyonun belirli bir eylem için a'nın ne kadar kötü olduğunu, s durumundaki optimal strateji tarafından oluşturulan eylemden daha fazla ölçtüğünü düşünebiliriz.

Bu nedenle, tanım gereği, optimal avantajı en üst düzeye çıkaran eylem, optimal eylemdir ve tercihten optimal avantaj fonksiyonunu öğrenmek, kişinin optimal stratejiyi sezgisel olarak çıkarmasına izin vermelidir.

Özellikle, ekip aşağıdaki teoremi kanıtladı:

Doğrudan Öğrenme Stratejilerinin Faydaları: Doğrudan bu şekilde π öğrenmenin birçok pratik ve teorik faydası vardır. Bunlardan en belirgin olanı, stratejiyi doğrudan öğrenirseniz, ödül işlevi veya değer işlevi gibi başka işlevleri öğrenmenize gerek kalmaması olabilir. Bu, CPL'yi önceki yöntemden çok daha basit hale getirir.

Karşıtlık içeren öğrenme ile bağlantılar. CPL yaklaşımı, strateji öğrenimi için doğrudan bir karşılaştırma hedefi kullanır. Araştırmacılar, büyük veri kümeleri ve sinir ağları ile kontrastlı öğrenme hedeflerinin kanıtlanmış başarısı göz önüne alındığında, CPL'nin geleneksel pekiştirmeli öğrenme algoritmalarını kullanan pekiştirmeli öğrenme yöntemlerinden daha iyi ölçeklenmesini beklediklerini söylüyorlar.

Pratik Hususlar

Kontrastlı tercih öğrenme çerçevesi, birçok algoritmanın türetilebildiği, güce dayalı tercihlerden stratejiler öğrenmek için kullanılabilecek genel bir kayıp işlevi sağlar. Aşağıda, iyi çalışan belirli bir CPL çerçevesinin pratik bir örneği verilmiştir.

Sınırlı çevrimdışı verilere sahip CPL. CPL, sınırsız tercih verileriyle optimal bir stratejiye yakınsayabilse de, pratikte genellikle sınırlı bir çevrimdışı veri kümesinden öğrenmekle ilgileniyoruz. Bu kurulumda, veri kümesinin desteğinin çok ötesinde tahminde bulunan ilkeler düşük performans gösterir çünkü gerçekleştirdikleri eylemler dağıtım dışı bir durumla sonuçlanır.

Düzenleme. Sonlu bir ortamda, bu veri kümesindeki eylemlere daha yüksek bir olasılık verirken CPL kayıp fonksiyonunu en aza indiren bir strateji seçmek istiyoruz. Bunu yapmak için, araştırmacı aşağıdaki kayıp fonksiyonunu elde etmek için muhafazakar bir düzenleyici kullanır: stratejinin D_pref'de bir eylem olasılığı daha yüksek olduğunda, daha düşük bir kayıp tahsis edilir, böylece dağılım içinde olması sağlanır.

Ön eğitim. Ekip, politika π_θ'nin daha iyi sonuçlar elde etmek için Davranışsal Klonlama (BC) yaklaşımı kullanılarak önceden eğitildiğini buldu. Bu nedenle, CPL kaybı kullanım tercihlerinde ince ayar yapmadan önce ekip, stratejiyi eğitmek için standart maksimum olabilirlik klonlama hedefini kullandı, yani:

Deneyler ve Sonuçlar

Bu bölüm, CPL ile ilgili aşağıdaki soruları yanıtlayacaktır: 1. CPL, pişmanlığa dayalı tercihlere dayalı politikalarda etkili bir şekilde ince ayar yapabilir mi?2. CPL, yüksek boyutlu kontrol sorunları ve daha büyük ağlar için ölçeklendirilebilir mi?3. Yüksek performans elde etmek için CPL'nin hangi bileşenleri önemlidir?

Tercih Verileri. Araştırmacılar, optimal olmayan dissosiyatif yayılma verilerini ve tercihlerini kullanarak, CPL'nin jenerik MDP için stratejileri öğrenme yeteneğini değerlendirdi.

Kıyaslama metodolojisi. Deneyde üç kıyaslama yöntemi göz önünde bulunduruldu: denetimli ince ayar (SFT), tercihli örtük Q öğrenimi (P-IQL), % BC (kullanıma sunmanın en üst %X'inin davranışsal klonlaması yoluyla bir politikayı eğitmek).

CPL nasıl performans gösteriyor?**

Duruma dayalı gözlemler kullanılırken CPL nasıl performans gösterir? Duruma dayalı deneysel sonuçlar için, Tablo 1'in 1. ve 3. satırları esas olarak görülebilir.

Daha seyrek karşılaştırmalı veriler kullanıldığında (satır 3), CPL, 6 ortamın 5'inde önceki yaklaşımdan daha iyi performans gösterdi ve P-IQL'ye göre avantajlar, özellikle Düğmeye Basma, Kutu Alma ve Süpürme ortamlarında çoğunlukla açıktı. Daha yoğun karşılaştırmalara sahip veri kümelerine uygulandığında, CPL, P-IGL'den (satır 1) bile daha avantajlıdır ve tüm bağlamlarda önemlidir.

CPL'nin denetleyici hedefinin yüksek boyutlu sürekli kontrol problemlerine genişletilip genişletilemeyeceğini test etmek için ekip, MetaWorld veri kümesini 64 × 64 görüntüye dönüştürdü.

Tablo 1'in 2. ve 4. satırları, görüntü tabanlı deneyin sonuçlarını verir. İlginç bir bulgu elde ettiler: SFT için performansta hafif bir artış oldu, ancak P-IQL'deki iyileşme dikkat çekiciydi. Daha yoğun tercih verilerini öğrenirken (satır 2), CPL, 6 ortamın 4'ünde P-IQL'den daha iyi performans gösterdi ve Sweep In'de her ikisiyle de karşılaştırılabilir. Daha seyrek karşılaştırmalı veriler öğrenirken (satır 4), CPL ve P-IQL çoğu görevde eşit performans gösterdi.

CPL'nin önemli ölçüde daha düşük karmaşıklığa sahip olduğu düşünüldüğünde bu daha da çarpıcı! P-IQL bir ödül fonksiyonu, bir Q fonksiyonu, bir değer fonksiyonu ve bir strateji öğrenmelidir. CPL bunların hiçbirini gerektirmez, yalnızca tek bir strateji öğrenmesi gerekir, bu da eğitim süresini ve parametre sayısını büyük ölçüde azaltır.

Aşağıdaki Tablo 2'de gösterildiği gibi, CPL, görüntü görevlerinde P-IQL'den 1,62 kat daha hızlı çalışır ve parametre sayısının dörtte birinden daha azına sahiptir. Ağ büyüdükçe, CPL kullanımından elde edilen performans kazanımları yalnızca artacaktır.

CPL'nin performansına hangi bileşenler katkıda bulunur?

Deneysel sonuçlardan da görülebileceği gibi, daha yoğun karşılaştırmalara sahip veri kümeleri kullanıldığında CPL ile kıyaslama yöntemi arasındaki boşluk daha fazladır. Bu, kontrastlı öğrenmede önceki araştırma sonuçlarıyla tutarlıdır.

Bu etkiyi araştırmak için, CPL'nin performansı, 5.000 parçadan oluşan sabit boyutlu bir veri kümesine dayalı olarak parça başına örneklenen karşılaştırma sayısı artırılarak değerlendirildi. Aşağıdaki Şekil 2, durum tabanlı gözlemler için Çekmece Açma görevinin sonuçlarını göstermektedir.

Genel olarak, Plaka Kaydırma görevi dışında, klip başına örneklenen karşılaştırma sayısı arttığında CPL fayda sağlar.

Son olarak, ekip ayrıca, sonuçları Şekil 2'nin sağ tarafında gösterilen açık çekmece görevine dayanan CPL'nin (sıcaklık değeri α ve önyargı düzenleyici, λ) hiperparametreleri üzerinde bir ablasyon çalışması gerçekleştirdi. CPL bu değerlerle iyi çalışsa da, deneyler hiperparametrelerin, özellikle λ'nın uygun şekilde ayarlanmasıyla daha da iyi performans gösterebileceğini bulmuştur.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)