Udostępniamy wczesny podgląd naszego trwającego szkolenia SWE-1.6. Znacząco poprawia się w porównaniu do SWE-1.5, będąc jednocześnie po treningu na tym samym modelu wstępnym - i działa równie szybko przy 950 tok/s. Na SWE-Bench Pro przewyższa najlepsze modele open-source. Model podglądowy nadal wykazuje pewne niepożądane zachowania, takie jak nadmierne myślenie i nadmierna auto-weryfikacja, które zamierzamy poprawić. Wprowadzamy wczesny dostęp do małej grupy użytkowników w Windsurf.
Udoskonaliliśmy nasz przepis na RL i zwiększyliśmy naszą infrastrukturę, aby odblokować dwa rzędy wielkości więcej mocy obliczeniowej niż ta, która była używana do trenowania SWE-1.5. Znacząco zwiększyliśmy liczbę środowisk RL i widzimy dalsze poprawy dzięki dalszemu treningowi RL.
Było zabawnie obserwować, jak model uczy się myśleć intensywniej i iterować przez więcej tur w trudnych problemach SWE-Bench Pro. Z drugiej strony, zauważamy nadmierne myślenie i nadmierną weryfikację w naszym własnym dogfooding. Odnalezienie odpowiedniej równowagi między interaktywnością a myśleniem długoterminowym jest aktywnym obszarem badań.
Optymalizowaliśmy naszą infrastrukturę szkoleniową, aby działała 6 razy szybciej niż 3 miesiące temu. Na przykład, nasz algorytm teraz toleruje wyższy poziom przestarzałości, co pozwoliło nam w pełni wykorzystać nasze silniki wnioskowania. W naszym wpisie na blogu () dzielimy się dodatkowymi szczegółami na temat naszych optymalizacji szkoleniowych oraz tego, jak zarządzamy alokacją GPU dla asynchronicznego RL.
83