2026-03-18 04:28:38

O1 desde o seu lançamento, o maior problema é ser "demasiado verboso".

Eu só queria corrigir um bug simples, e ele me apresenta três contextos de fundo, duas conjuntos de soluções mais tratamento de erros, e ainda por cima deseja-me sorte.

Eu estava apenas à procura de um erro de ortografia na linha 12, mas fui forçado a rever as convenções de nomenclatura do Python.

A culpa é do RLHF. Os anotadores tendem a dar pontuações mais altas a respostas longas, considerando que muitas palavras parecem profissionais.

Assim, o modelo fica obcecado a acumular informação "aparentemente útil" que parece desperdício, enquanto a informação central verdadeira fica diluída.

Vê o concorrente ao lado, o Claude é muito mais sensato nesta área, sabe que tipo de comprimento cada pergunta merece.

O que mais dói é a carteira: o1 cobra $60/1M tokens no output, quando claramente 100 tokens conseguem transmitir o que é necessário, mas força 500, custando cinco vezes mais.

Agora é preciso adicionar especificamente uma frase como "apenas código" ao fazer perguntas, e nem sequer isto garante resultados.

O estado atual do modelo é: QI extremamente elevado, mas inteligência emocional desligada, sem ideia de quando deveria simplesmente calar-se.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas