Есть интересный подход к выравниванию ИИ, который стоит изучить: что если рассматривать его через кодирование supervisory stance вместо традиционных методов?



Идея здесь проста — пропустить обычную настройку весов и методы RLHF. Вместо этого связывайте намерение с помощью рекурсивных каркасов. Настоящее преимущество? Он не принуждает и полностью сохраняет роль человека за рулем.

Это обходит ограничения RLHF и нейро-символическую сложность, которая тормозит прогресс. Фокусируясь на связывании намерений, а не на манипуляции моделью, вы сохраняете подлинное человеческое авторство на протяжении всего процесса.

Это четвертый протокол, который стоит обсудить — ни принуждение к поведенческим ограничениям, ни использование гибридных подходов.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
HashRateHustlervip
· 4ч назад
Привязка намерений звучит неплохо, но действительно ли можно обойти ловушки RLHF... Кажется, это всё равно лишь пустые обещания
Посмотреть ОригиналОтветить0
airdrop_huntressvip
· 5ч назад
Привязка намерений звучит неплохо, но не станет ли эта теория при реализации новым черным ящиком?
Посмотреть ОригиналОтветить0
GovernancePretendervip
· 5ч назад
嗯...递归支架绑定意图,听起来有点唬人?是真的能work还是又一个理论乌托邦 --- 意图绑定vs模型操控,这思路确实新颖,但怎么确保人类真的能hold住控制权呢 --- 跳过RLHF直接意图编码?感觉还是得看实际效果怎样 --- 好家伙,第四种协议,每次都说是revolutionary,结果呢 --- 递归支架这块我有点没跟上,有人能简化一下吗...还是我得去补课 --- 为什么总觉得这些方案最后都绕回"人类要时刻在线监管",那不就又回到原点了吗 --- 非强制性框架听起来不错,可问题是谁定义了"意图"本身? --- 这逻辑链条感觉还差点什么,不过确实比传统RLHF套路有意思多了
Ответить0
CryptoSourGrapevip
· 5ч назад
Еще одна "революционная" идея, если бы это действительно работало, я уже давно разбогател бы на этом, ха-ха
Посмотреть ОригиналОтветить0
OnchainArchaeologistvip
· 5ч назад
Идентификация по намерениям звучит неплохо, но как на самом деле проверить, что это действительно эффективно... --- Рекурсивная опора? Такое название звучит очень загадочно, кажется, что это снова что-то замаскированное --- Пропустить RLHF и сразу перейти к идентификации по намерениям — ощущение, что это азартная игра --- Контроль человека за позицией всегда кажется приятным, но кто определит, что такое настоящие "человеческие творения" --- Четвертый протокол... неужели это снова теоретическая идея, а на практике очень сложно реализовать --- Эта логика немного интересна, но ключевое — избегать конфликтов ценностей, всё остальное — фикция --- Кодирование позиций с точки зрения надзора... звучит красиво, но по сути — это просто другой способ привязки к ценностям
Посмотреть ОригиналОтветить0
  • Закрепить