Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
We delen een vroege preview van onze lopende SWE-1.6 trainingsronde.
Het verbetert aanzienlijk ten opzichte van SWE-1.5 terwijl het is nageschoold op hetzelfde voorgetrainde model - en het draait even snel met 950 tok/s. Op SWE-Bench Pro overtreft het de beste open-source modellen.
Het previewmodel vertoont nog steeds enkele ongewenste gedragingen zoals overdenken en overmatige zelfverificatie, wat we willen verbeteren. We rollen vroege toegang uit naar een kleine subset van gebruikers in Windsurf.

We hebben ons RL-recept verfijnd en onze infrastructuur opgeschaald om twee ordes van grootte meer rekencapaciteit vrij te maken dan werd gebruikt om SWE-1.5 te trainen. We hebben het aantal RL-omgevingen aanzienlijk opgeschaald en zien voortdurende verbeteringen met verdere RL-training.

Het is leuk geweest om te zien hoe het model leert harder na te denken en meer iteraties te maken voor langere tijd bij moeilijke SWE-Bench Pro problemen. Aan de andere kant zien we overdenken en overmatige zelfverificatie in onze eigen dogfooding.
Het vinden van de juiste balans tussen interactiviteit en langetermijndenken is een actief onderzoeksgebied.

We hebben onze trainingsstack geoptimaliseerd om 6x sneller te draaien dan 3 maanden geleden. Bijvoorbeeld, ons algoritme tolereert nu hogere veroudering, wat ons in staat stelde om onze inferentie-engines volledig te benutten.
In onze blogpost () delen we meer details over onze trainingsoptimalisaties en hoe we GPU-toewijzing beheren voor async RL.

92
Boven
Positie
Favorieten
