Pesquisa mais recente da OpenAI: por que o GPT-5 e outros LLM ainda falam bobagens

A OpenAI publicou um novo artigo de pesquisa, afirmando que, mesmo que grandes modelos de linguagem (LLM), como o GPT-5, tenham progredido bastante, as "alucinações de IA" (Hallucinations) continuam a ser um problema fundamental, que pode nunca ser completamente eliminado. A equipe de pesquisa, através de experimentos, revelou que o modelo, ao responder a perguntas específicas, pode se mostrar bastante confiante, mas fornece respostas totalmente erradas, e propôs um novo plano de reforma de "mecanismo de avaliação" com a esperança de reduzir a situação de "palpites" do modelo.

Os pesquisadores testaram diferentes questões com o modelo de IA, e todas as respostas estavam erradas.

Os pesquisadores perguntaram a um chatbot amplamente utilizado sobre o título de uma tese de doutorado e, como resultado, receberam três respostas consecutivas, todas erradas. Em seguida, perguntaram sua data de nascimento, e o robô também forneceu três datas diferentes, todas incorretas.

Estudos mostram que modelos de IA, quando confrontados com "informações muito raras" em alguns dados, tendem a dar respostas com muita confiança, mas que estão completamente erradas.

O mecanismo de pré-treinamento apenas aprende a "superfície da linguagem", sem entender a correção dos fatos.

Pesquisas indicam que o processo de pré-treinamento do modelo é realizado através de uma grande quantidade de texto para "prever a próxima palavra", mas os dados não estão rotulados como "verdadeiro ou falso". Em outras palavras, o modelo apenas aprende a superfície da linguagem, e não a precisão dos fatos.

Coisas com alta regularidade, como soletrar ou parênteses, tendem a ter erros que desaparecem gradualmente à medida que o tamanho do modelo aumenta.

Mas informações com alta aleatoriedade, como "aniversário de alguém", não podem ser inferidas por meio de padrões de linguagem, tornando-as suscetíveis a ilusões.

Modelos de IA são incentivados a "adivinhar" e precisam corrigir o modo de avaliação do modelo.

A pesquisa enfatiza que a forma de avaliação deve mudar drasticamente, o foco não deve ser apenas em ver se está "certo ou errado", mas sim em penalizar severamente aquelas respostas que estão muito erradas e confiantes, e recompensar a IA por "dizer honestamente que não sabe". Em outras palavras, a IA deve ser punida mais por dar respostas erradas do que por admitir que não sabe.

Por outro lado, se a resposta for "incerto", também deve receber alguns pontos, em vez de ser contabilizada como zero. Além disso, não pode ser apenas uma questão de adicionar alguns testes para dar uma aparência de mudança, mas sim de derrubar completamente o atual sistema de avaliação que apenas considera a taxa de acertos. Sem corrigir a forma de avaliação, a IA continuará a adivinhar aleatoriamente.

A pesquisa final indica que, para reduzir as alucinações, é necessário começar pela avaliação do sistema, estabelecendo uma forma de teste que realmente incentive a "cautela e honestidade". Em vez de exigir que a IA "acerte todas as vezes", é mais importante estabelecer regras de jogo que aceitem que a IA "não sabe".

(2025 Análise completa dos 5 principais LLMs, compreenda uma vez por todas sobre pagamento, aplicações e segurança )

Este artigo OpenAI Pesquisa mais recente: Por que o GPT-5 e outros LLM ainda falam bobagens apareceu pela primeira vez na Chain News ABMedia.

GPT-6.94%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)