Estamos a partilhar uma pré-visualização antecipada do nosso treino em curso SWE-1.6. Ele melhora significativamente em relação ao SWE-1.5, mantendo-se pós-treinado no mesmo modelo pré-treinado - e funciona igualmente rápido a 950 tok/s. No SWE-Bench Pro, supera os melhores modelos de código aberto. O modelo de pré-visualização ainda apresenta alguns comportamentos indesejáveis, como pensar demais e auto-verificação excessiva, que pretendemos melhorar. Estamos a disponibilizar acesso antecipado a um pequeno subconjunto de utilizadores no Windsurf.
Aprimorámos a nossa receita de RL e escalámos a nossa infraestrutura para desbloquear duas ordens de magnitude mais capacidade de computação do que a utilizada para treinar o SWE-1.5. Escalámos significativamente o número de ambientes de RL e vemos melhorias contínuas com mais treino de RL.
Tem sido divertido observar o modelo a aprender a pensar mais intensamente e a iterar por mais turnos em problemas difíceis do SWE-Bench Pro. Por outro lado, observamos um excesso de reflexão e auto-verificação excessiva na nossa própria experiência. Descobrir o equilíbrio certo entre interatividade e pensamento a longo prazo é uma área ativa de pesquisa.
Otimizámos a nossa pilha de treino para funcionar 6x mais rápido do que há 3 meses. Por exemplo, o nosso algoritmo agora tolera uma maior obsolescência, o que nos permitiu utilizar totalmente os nossos motores de inferência. No nosso post no blog (), partilhamos mais detalhes sobre as nossas otimizações de treino e como gerimos a alocação de GPU para RL assíncrono.
86