Есть интересный подход к выравниванию ИИ, который стоит изучить: что если рассматривать его через кодирование supervisory stance вместо традиционных методов?
Идея здесь проста — пропустить обычную настройку весов и методы RLHF. Вместо этого связывайте намерение с помощью рекурсивных каркасов. Настоящее преимущество? Он не принуждает и полностью сохраняет роль человека за рулем.
Это обходит ограничения RLHF и нейро-символическую сложность, которая тормозит прогресс. Фокусируясь на связывании намерений, а не на манипуляции моделью, вы сохраняете подлинное человеческое авторство на протяжении всего процесса.
Это четвертый протокол, который стоит обсудить — ни принуждение к поведенческим ограничениям, ни использование гибридных подходов.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
6 Лайков
Награда
6
5
Репост
Поделиться
комментарий
0/400
HashRateHustler
· 4ч назад
Привязка намерений звучит неплохо, но действительно ли можно обойти ловушки RLHF... Кажется, это всё равно лишь пустые обещания
Посмотреть ОригиналОтветить0
airdrop_huntress
· 5ч назад
Привязка намерений звучит неплохо, но не станет ли эта теория при реализации новым черным ящиком?
Еще одна "революционная" идея, если бы это действительно работало, я уже давно разбогател бы на этом, ха-ха
Посмотреть ОригиналОтветить0
OnchainArchaeologist
· 5ч назад
Идентификация по намерениям звучит неплохо, но как на самом деле проверить, что это действительно эффективно...
---
Рекурсивная опора? Такое название звучит очень загадочно, кажется, что это снова что-то замаскированное
---
Пропустить RLHF и сразу перейти к идентификации по намерениям — ощущение, что это азартная игра
---
Контроль человека за позицией всегда кажется приятным, но кто определит, что такое настоящие "человеческие творения"
---
Четвертый протокол... неужели это снова теоретическая идея, а на практике очень сложно реализовать
---
Эта логика немного интересна, но ключевое — избегать конфликтов ценностей, всё остальное — фикция
---
Кодирование позиций с точки зрения надзора... звучит красиво, но по сути — это просто другой способ привязки к ценностям
Есть интересный подход к выравниванию ИИ, который стоит изучить: что если рассматривать его через кодирование supervisory stance вместо традиционных методов?
Идея здесь проста — пропустить обычную настройку весов и методы RLHF. Вместо этого связывайте намерение с помощью рекурсивных каркасов. Настоящее преимущество? Он не принуждает и полностью сохраняет роль человека за рулем.
Это обходит ограничения RLHF и нейро-символическую сложность, которая тормозит прогресс. Фокусируясь на связывании намерений, а не на манипуляции моделью, вы сохраняете подлинное человеческое авторство на протяжении всего процесса.
Это четвертый протокол, который стоит обсудить — ни принуждение к поведенческим ограничениям, ни использование гибридных подходов.