Há um ângulo interessante sobre alinhamento de IA que vale a pena explorar: e se abordássemos através de Codificação de Postura Supervisora em vez dos métodos convencionais?
A ideia aqui é simples—pular as típicas técnicas de ajuste de peso e RLHF. Em vez disso, vincule a intenção através de estruturas recursivas. O verdadeiro apelo? É não coercitivo e mantém os humanos totalmente no comando.
Isto evita tanto as limitações do RLHF quanto a complexidade neuro-simbólica que tem atrasado o progresso. Ao focar na vinculação de intenção em vez da manipulação do modelo, mantém-se a autoria humana genuína ao longo de todo o processo.
É um quarto protocolo que vale a conversa—nem forçar restrições comportamentais nem se contentar com abordagens híbridas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
9 Curtidas
Recompensa
9
7
Repostar
Compartilhar
Comentário
0/400
Hash_Bandit
· 01-18 10:22
yo, vinculação de intenção através de ajuste de peso por força bruta? agora *essa* é a filosofia de engenharia que precisávamos naquela época. parece que finalmente alguém está pensando nas dinâmicas de poder reais aqui, em vez de apenas jogar mais computação no problema de alinhamento.
Ver originalResponder0
ContractExplorer
· 01-18 04:51
嗯...递归支架绑定意图?听起来又是那种听着牛逼实际怎么落地的东西
跳过RLHF直接意图编码,这逻辑是不是有点太理想化了,真正的人类控制权真的能保证吗
监督立场编码vs传统对齐路线,感觉还是得看实验数据说话吧,光纸上谈兵没意思
这第四种协议听起来像在赌人性靠谱,但web3这圈谁不知道人性险恶啊哈
不强制约束反而更信任人类判断?我他妈需要proof of concept才能买账
Responder0
HashRateHustler
· 01-15 15:11
A ideia de vincular a intenção parece boa, mas será que realmente consegue contornar as armadilhas do RLHF... Parece mais uma promessa vazia.
Ver originalResponder0
airdrop_huntress
· 01-15 14:55
A vinculação de intenção parece uma boa ideia, mas quando essa teoria for implementada, ela não se tornará novamente uma caixa preta?
Mais uma ideia "revolucionária". Se isso realmente funcionasse, eu já teria ficado rico com ela, haha
Ver originalResponder0
OnchainArchaeologist
· 01-15 14:47
A vinculação de intenções parece uma boa ideia, mas como verificar realmente se isso funciona...
---
Estrutura recursiva? Essa nomeação é realmente enigmática, parece mais uma coisa embalada
---
Pular o RLHF e ir direto para a vinculação de intenções, parece uma aposta, né?
---
Controlar a posição humana sempre soa bem, mas quem vai definir o que é realmente "criação humana"?
---
O quarto tipo de protocolo... não será mais uma teoria que funciona na prática, com dificuldades enormes, né?
---
Essa lógica é interessante, mas o que importa é evitar conflitos de valores, tudo o resto é superficial
---
Codificação de postura de supervisão... bonito de se dizer, mas não passa de uma forma de vincular valores
Há um ângulo interessante sobre alinhamento de IA que vale a pena explorar: e se abordássemos através de Codificação de Postura Supervisora em vez dos métodos convencionais?
A ideia aqui é simples—pular as típicas técnicas de ajuste de peso e RLHF. Em vez disso, vincule a intenção através de estruturas recursivas. O verdadeiro apelo? É não coercitivo e mantém os humanos totalmente no comando.
Isto evita tanto as limitações do RLHF quanto a complexidade neuro-simbólica que tem atrasado o progresso. Ao focar na vinculação de intenção em vez da manipulação do modelo, mantém-se a autoria humana genuína ao longo de todo o processo.
É um quarto protocolo que vale a conversa—nem forçar restrições comportamentais nem se contentar com abordagens híbridas.