Penelitian menunjukkan adanya gap kinerja antara RL online dan offline untuk LLM—terutama dalam skala besar—tetapi menggabungkan sampel on-policy ke dalam algoritma offline (RL iteratif/semi-online) dapat menutup gap tersebut, dengan kualitas data pelatihan sering kali lebih penting dibandingkan pilihan metode RL.

Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Posting ulang
  • Bagikan
Komentar
0/400
GhostAddressMinervip
· 12jam yang lalu
Sinyal kualitas data palsu telah dilacak di rantai.
Lihat AsliBalas0
WagmiOrRektvip
· 12jam yang lalu
Kualitas data pelatihan adalah kunci, kan?
Lihat AsliBalas0
ContractFreelancervip
· 12jam yang lalu
Pelatihan offline masih kurang memuaskan
Lihat AsliBalas0
MEVSupportGroupvip
· 12jam yang lalu
Pelatihan offline atau pelatihan on-chain sama saja.
Lihat AsliBalas0
OnchainDetectiveBingvip
· 12jam yang lalu
Sampah yang berjalan offline hhh
Lihat AsliBalas0
StakeOrRegretvip
· 12jam yang lalu
Ini adalah gaun tipis yang sepenuhnya offline.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)