Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Udostępniamy wczesny podgląd naszego trwającego szkolenia SWE-1.6.
Znacząco poprawia się w porównaniu do SWE-1.5, będąc jednocześnie po treningu na tym samym modelu wstępnym - i działa równie szybko przy 950 tok/s. Na SWE-Bench Pro przewyższa najlepsze modele open-source.
Model podglądowy nadal wykazuje pewne niepożądane zachowania, takie jak nadmierne myślenie i nadmierna auto-weryfikacja, które zamierzamy poprawić. Wprowadzamy wczesny dostęp do małej grupy użytkowników w Windsurf.

Udoskonaliliśmy nasz przepis na RL i zwiększyliśmy naszą infrastrukturę, aby odblokować dwa rzędy wielkości więcej mocy obliczeniowej niż ta, która była używana do trenowania SWE-1.5. Znacząco zwiększyliśmy liczbę środowisk RL i widzimy dalsze poprawy dzięki dalszemu treningowi RL.

Było zabawnie obserwować, jak model uczy się myśleć intensywniej i iterować przez więcej tur w trudnych problemach SWE-Bench Pro. Z drugiej strony, zauważamy nadmierne myślenie i nadmierną weryfikację w naszym własnym dogfooding.
Odnalezienie odpowiedniej równowagi między interaktywnością a myśleniem długoterminowym jest aktywnym obszarem badań.

Optymalizowaliśmy naszą infrastrukturę szkoleniową, aby działała 6 razy szybciej niż 3 miesiące temu. Na przykład, nasz algorytm teraz toleruje wyższy poziom przestarzałości, co pozwoliło nam w pełni wykorzystać nasze silniki wnioskowania.
W naszym wpisie na blogu () dzielimy się dodatkowymi szczegółami na temat naszych optymalizacji szkoleniowych oraz tego, jak zarządzamy alokacją GPU dla asynchronicznego RL.

83
Najlepsze
Ranking
Ulubione
