Є цікавий підхід до вирівнювання ШІ, який варто дослідити: що якщо ми підходили до цього через кодування супервізорської позиції замість традиційних шляхів?
Ідея тут проста — пропустити типове налаштування ваг і методи RLHF. Замість цього, зв’яжіть намір через рекурсивні каркаси. Головна перевага? Це не примусовий метод і повністю тримає людину за кермом.
Це обминає обмеження RLHF і нейро-символічну складність, яка сповільнює прогрес. Зосереджуючись на зв’язуванні наміру, а не на маніпуляції моделлю, ви зберігаєте справжнє людське авторство протягом усього процесу.
Це четвертий протокол, який варто обговорити — ні примусового обмеження поведінки, ні компромісів із гібридними підходами.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
6 лайків
Нагородити
6
5
Репост
Поділіться
Прокоментувати
0/400
HashRateHustler
· 4год тому
Прив'язка намірів звучить непогано, але чи справді можна обійти пастки RLHF... здається, це все ще просто обіцянки.
Переглянути оригіналвідповісти на0
airdrop_huntress
· 5год тому
Зв'язування намірів звучить непогано, але чи не перетвориться ця теорія у нову чорну скриньку при її впровадженні?
Переглянути оригіналвідповісти на0
GovernancePretender
· 5год тому
嗯...рекурсивна опора прив'язки намірів, звучить трохи лякаюче? Це справді може працювати чи знову ще одна теоретична утопія
---
Прив'язка намірів vs маніпуляція моделлю, ця ідея дійсно нова, але як гарантувати, що люди справді зможуть зберегти контроль?
---
Пропустити RLHF і одразу кодування намірів? Відчувається, що все ж потрібно подивитися на реальні результати
---
Ого, четвертий тип протоколу, кожного разу кажуть, що це революційно, а що в підсумку?
---
Я трохи не встиг за рекурсивною опорою, хтось може спростити? Або мені потрібно додатково вчитись
---
Чому здається, що всі ці рішення в кінці знову повертаються до "люди повинні постійно контролювати", хіба це не повертає нас до початкової точки?
---
Неформальний каркас звучить добре, але проблема в тому, хто визначає сам "намір"?
---
Ця логічна ланцюг здається ще не закінчена, але вона дійсно цікавіша за традиційний RLHF підхід
Переглянути оригіналвідповісти на0
CryptoSourGrape
· 5год тому
Ще одна "революційна" ідея, якщо б це дійсно працювало, я б уже давно збагачувався на цьому, ха-ха
Переглянути оригіналвідповісти на0
OnchainArchaeologist
· 5год тому
Інтуїтивне прив'язування звучить непогано, але як насправді перевірити, чи ця штука дійсно ефективна...
---
Рекурсивна опора? Це звучить дуже загадково, здається, знову щось упаковане
---
Пропустити RLHF і одразу перейти до інтуїтивного прив'язування, здається, що це гра в азартні ігри
---
Людський контроль над позицією звучить круто, але хто визначить, що таке справжнє "людське творіння"
---
Четвертий протокол... знову теоретично можливо, але реальні труднощі просто зашкалюють
---
Ця логіка досить цікава, але ключовим є уникнення конфліктів цінностей, все інше — порожнеча
---
Кодекс контролю за наглядом... кажуть гарно, але насправді це просто інший спосіб прив'язати цінності
Є цікавий підхід до вирівнювання ШІ, який варто дослідити: що якщо ми підходили до цього через кодування супервізорської позиції замість традиційних шляхів?
Ідея тут проста — пропустити типове налаштування ваг і методи RLHF. Замість цього, зв’яжіть намір через рекурсивні каркаси. Головна перевага? Це не примусовий метод і повністю тримає людину за кермом.
Це обминає обмеження RLHF і нейро-символічну складність, яка сповільнює прогрес. Зосереджуючись на зв’язуванні наміру, а не на маніпуляції моделлю, ви зберігаєте справжнє людське авторство протягом усього процесу.
Це четвертий протокол, який варто обговорити — ні примусового обмеження поведінки, ні компромісів із гібридними підходами.