Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estamos a partilhar uma pré-visualização antecipada do nosso treino em curso SWE-1.6.
Ele melhora significativamente em relação ao SWE-1.5, mantendo-se pós-treinado no mesmo modelo pré-treinado - e funciona igualmente rápido a 950 tok/s. No SWE-Bench Pro, supera os melhores modelos de código aberto.
O modelo de pré-visualização ainda apresenta alguns comportamentos indesejáveis, como pensar demais e auto-verificação excessiva, que pretendemos melhorar. Estamos a disponibilizar acesso antecipado a um pequeno subconjunto de utilizadores no Windsurf.

Aprimorámos a nossa receita de RL e escalámos a nossa infraestrutura para desbloquear duas ordens de magnitude mais capacidade de computação do que a utilizada para treinar o SWE-1.5. Escalámos significativamente o número de ambientes de RL e vemos melhorias contínuas com mais treino de RL.

Tem sido divertido observar o modelo a aprender a pensar mais intensamente e a iterar por mais turnos em problemas difíceis do SWE-Bench Pro. Por outro lado, observamos um excesso de reflexão e auto-verificação excessiva na nossa própria experiência.
Descobrir o equilíbrio certo entre interatividade e pensamento a longo prazo é uma área ativa de pesquisa.

Otimizámos a nossa pilha de treino para funcionar 6x mais rápido do que há 3 meses. Por exemplo, o nosso algoritmo agora tolera uma maior obsolescência, o que nos permitiu utilizar totalmente os nossos motores de inferência.
No nosso post no blog (), partilhamos mais detalhes sobre as nossas otimizações de treino e como gerimos a alocação de GPU para RL assíncrono.

86
Top
Classificação
Favoritos
