Дослідження показує розрив у продуктивності між онлайн і офлайн RL для LLM — особливо в масштабах, — але включення зразків на основі політики в офлайн алгоритми (ітеративне/напівонлайн RL) може закрити розрив, при цьому якість навчальних даних часто переважає вибір методу RL.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
6
Репост
Поділіться
Прокоментувати
0/400
GhostAddressMiner
· 13год тому
Сигнали про підробку якості даних у блокчейні вже відстежуються
Переглянути оригіналвідповісти на0
WagmiOrRekt
· 13год тому
Якість навчальних даних є ключовою, правда?
Переглянути оригіналвідповісти на0
ContractFreelancer
· 13год тому
Офлайн-навчання все ще не зовсім те.
Переглянути оригіналвідповісти на0
MEVSupportGroup
· 13год тому
Офлайн-тренування чи тренування у блокчейні - все одно однаково.
Переглянути оригіналвідповісти на0
OnchainDetectiveBing
· 13год тому
Смішно, що погана програма працює в офлайн-режимі hhh
Дослідження показує розрив у продуктивності між онлайн і офлайн RL для LLM — особливо в масштабах, — але включення зразків на основі політики в офлайн алгоритми (ітеративне/напівонлайн RL) може закрити розрив, при цьому якість навчальних даних часто переважає вибір методу RL.