DApp Store | Web3 Hub for hendelser og spill

Populære emner

Vi deler en tidlig forhåndsvisning av vår pågående SWE-1.6-treningsrunde. Den forbedrer SWE-1.5 betydelig mens den er etteropplært på samme forhåndstrente modell – og den kjører like raskt med 950 tok/s. På SWE-Bench Pro overgår den toppmodellene med åpen kildekode. Forhåndsvisningsmodellen viser fortsatt noen uønskede atferder som overtenking og overdreven selvverifisering, som vi ønsker å forbedre. Vi ruller ut tidlig tilgang til et lite utvalg brukere i Windsurf.

Vi forbedret vår RL-oppskrift og skalerte infrastrukturen vår for å frigjøre to størrelsesordener mer datakraft enn det som ble brukt til å trene SWE-1.5. Vi skalerte antallet RL-miljøer betydelig og ser fortsatte forbedringer med videre RL-trening.

Det har vært morsomt å observere modellen lære å tenke hardere og iterere for flere vendinger på vanskelige SWE-Bench Pro-problemer. På den andre siden observerer vi overtenking og overdreven selvverifisering i vår egen hundemating. Å finne riktig balanse mellom interaktivitet og langsiktig tenkning er et aktivt forskningsområde.

Vi optimaliserte treningsstakken vår til å kjøre 6 ganger raskere enn for 3 måneder siden. For eksempel tolererer algoritmen vår nå høyere stagnasjon, noe som gjorde at vi kunne utnytte inferensmotorene fullt ut. I blogginnlegget vårt (), deler vi flere detaljer om våre treningsoptimaliseringer og hvordan vi håndterer GPU-allokering for asynkron RL.

91

Topp

Rangering

Favoritter