Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi deler en tidlig forhåndsvisning av vår pågående SWE-1.6-treningsrunde.
Den forbedrer SWE-1.5 betydelig mens den er etteropplært på samme forhåndstrente modell – og den kjører like raskt med 950 tok/s. På SWE-Bench Pro overgår den toppmodellene med åpen kildekode.
Forhåndsvisningsmodellen viser fortsatt noen uønskede atferder som overtenking og overdreven selvverifisering, som vi ønsker å forbedre. Vi ruller ut tidlig tilgang til et lite utvalg brukere i Windsurf.

Vi forbedret vår RL-oppskrift og skalerte infrastrukturen vår for å frigjøre to størrelsesordener mer datakraft enn det som ble brukt til å trene SWE-1.5. Vi skalerte antallet RL-miljøer betydelig og ser fortsatte forbedringer med videre RL-trening.

Det har vært morsomt å observere modellen lære å tenke hardere og iterere for flere vendinger på vanskelige SWE-Bench Pro-problemer. På den andre siden observerer vi overtenking og overdreven selvverifisering i vår egen hundemating.
Å finne riktig balanse mellom interaktivitet og langsiktig tenkning er et aktivt forskningsområde.

Vi optimaliserte treningsstakken vår til å kjøre 6 ganger raskere enn for 3 måneder siden. For eksempel tolererer algoritmen vår nå høyere stagnasjon, noe som gjorde at vi kunne utnytte inferensmotorene fullt ut.
I blogginnlegget vårt (), deler vi flere detaljer om våre treningsoptimaliseringer og hvordan vi håndterer GPU-allokering for asynkron RL.

91
Topp
Rangering
Favoritter
