Windsurf treinou um pequeno modelo especializado em detectar bugs usando RL, e na avaliação interna já igualou o Claude Opus 4.6

robot
Geração do resumo em andamento

ME News Notícias, 15 de abril (UTC+8), de acordo com o monitoramento do Beating, a empresa-mãe do Windsurf, ferramenta de programação AI, Cognition AI, colaborou com a empresa de treinamento de IA Applied Compute para treinar um modelo especializado na detecção de bugs de código, chamado SWE-Check. O modelo analisa as alterações atuais do código do usuário (diff), marca automaticamente possíveis bugs introduzidos e fornece sugestões de correção.
Nos testes de distribuição semelhante aos dados de treinamento, a pontuação F1 do SWE-Check igualou a do Claude Opus 4.6 (a diferença caiu de 0,09 para 0); em testes de distribuição cruzada, a diferença diminuiu de 0,49 para 0,29, ainda ficando atrás dos modelos de ponta, mas com progresso evidente.
A vantagem principal está na velocidade e no custo: o SWE-Check é um fator de 10 mais rápido que os modelos de ponta, com custos de inferência significativamente menores, permitindo detecção de bugs instantânea e gratuita dentro do IDE, algo que modelos grandes como o Opus 4.6 não conseguem fazer por chamada direta.
Existem duas abordagens de design no método de treinamento que merecem atenção:

  1. Linearização de recompensa (reward linearization): a equipe deseja otimizar a métrica global F-beta, mas essa métrica não pode ser decomposta diretamente em amostras individuais. Eles convertem a métrica global em uma função de recompensa que pode ser calculada amostra por amostra usando uma aproximação de primeira ordem, permitindo que o treinamento melhore efetivamente a métrica global. Versões iniciais apresentaram alta taxa de falsos positivos, então a equipe ajustou beta de 1 para 0,5 para enfatizar precisão.
  2. Treinamento pós-duas fases: a primeira fase maximiza puramente a capacidade de detectar bugs, sem penalizar atrasos; a segunda fase introduz penalidades por atraso, baseando-se na distribuição estatística de quanto tempo os usuários reais levam para abandonar a detecção após acioná-la. Essa abordagem em fases é superior à otimização simultânea de ambos os objetivos, pois a última pode levar a ótimos locais, como aprender a detectar rapidamente, mas de forma superficial.
    A versão preliminar do SWE-Check já está disponível no Windsurf Next (atalho cmd+U), e posteriormente será integrada à versão oficial do Windsurf.
    (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar