Исследования показывают, что существует разрыв в производительности между онлайн и оффлайн RL для LLM—особенно в больших масштабах—но включение образцов на основе политики в оффлайн алгоритмы (итеративный/полуонлайн RL) может закрыть этот разрыв, при этом качество обучающих данных часто перевешивает выбор метода RL.

Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
0/400
GhostAddressMinervip
· 13ч назад
Качество данных подделки в блокчейне сигнал уже отслеживается
Посмотреть ОригиналОтветить0
WagmiOrRektvip
· 13ч назад
Качество тренировочных данных является ключевым, не так ли?
Посмотреть ОригиналОтветить0
ContractFreelancervip
· 13ч назад
Оффлайн-обучение все же немного не так.
Посмотреть ОригиналОтветить0
MEVSupportGroupvip
· 13ч назад
Оффлайн-тренировка или тренировка в блокчейне — всё одно и то же.
Посмотреть ОригиналОтветить0
OnchainDetectiveBingvip
· 13ч назад
Оффлайн работающий хлам hhh
Посмотреть ОригиналОтветить0
StakeOrRegretvip
· 14ч назад
Здесь тонкая вуаль полностью оффлайн.
Посмотреть ОригиналОтветить0
  • Закрепить