Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми ділимося раннім попереднім оглядом нашого поточного тренування SWE-1.6.
Він значно покращує SWE-1.5, пройшовши постнавчану модель — і працює так само швидко, коли швидкість 950 ток/с. На SWE-Bench Pro він перевершує топові моделі з відкритим кодом.
Модель прев'ю все ще демонструє деякі небажані поведінкові прояви, такі як надмірне обдумування та надмірна самоперевірка, яку ми прагнемо покращити. Ми впроваджуємо ранній доступ для невеликої частини користувачів Windsurf.

Ми вдосконалили наш рецепт RL і масштабували інфраструктуру, щоб розблокувати на два порядки більше обчислювальної інформації, ніж було використано для навчання SWE-1.5. Ми значно збільшили кількість середовищ RL і бачимо подальші покращення завдяки подальшому навчанню RL.

Було цікаво спостерігати, як модель вчиться думати уважніше і ітерувати для більшої кількості ходів у складних задачах SWE-Bench Pro. З іншого боку, ми спостерігаємо надмірне обдумування та надмірну самовпевненість у власному кормі для собак.
Пошук правильного балансу між інтерактивністю та довгоперспективним мисленням є активною сферою досліджень.

Ми оптимізували наш тренувальний стек, щоб працювати у 6 разів швидше, ніж 3 місяці тому. Наприклад, наш алгоритм тепер терпить більшу застарілість, що дозволило нам повністю використовувати двигуни висновку.
У нашому блозі (), ми ділимося детальнішою інформацією про оптимізації навчання та про те, як ми керуємо розподілом GPU для асинхронного RL.

135
Найкращі
Рейтинг
Вибране
