O1 desde o seu lançamento, o maior problema é ser "demasiado verboso".



Eu só queria corrigir um bug simples, e ele me apresenta três contextos de fundo, duas conjuntos de soluções mais tratamento de erros, e ainda por cima deseja-me sorte.

Eu estava apenas à procura de um erro de ortografia na linha 12, mas fui forçado a rever as convenções de nomenclatura do Python.

A culpa é do RLHF. Os anotadores tendem a dar pontuações mais altas a respostas longas, considerando que muitas palavras parecem profissionais.

Assim, o modelo fica obcecado a acumular informação "aparentemente útil" que parece desperdício, enquanto a informação central verdadeira fica diluída.

Vê o concorrente ao lado, o Claude é muito mais sensato nesta área, sabe que tipo de comprimento cada pergunta merece.

O que mais dói é a carteira: o1 cobra $60/1M tokens no output, quando claramente 100 tokens conseguem transmitir o que é necessário, mas força 500, custando cinco vezes mais.

Agora é preciso adicionar especificamente uma frase como "apenas código" ao fazer perguntas, e nem sequer isto garante resultados.

O estado atual do modelo é: QI extremamente elevado, mas inteligência emocional desligada, sem ideia de quando deveria simplesmente calar-se.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar