Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami membagikan pratinjau awal dari pelatihan SWE-1.6 kami yang sedang berlangsung.
Ini secara signifikan meningkatkan SWE-1.5 saat dilatih pasca-pelatihan pada model pra-terlatih yang sama - dan berjalan sama cepatnya dengan 950 tok/s. Di SWE-Bench Pro itu melebihi model sumber terbuka teratas.
Model pratinjau masih menunjukkan beberapa perilaku yang tidak diinginkan seperti terlalu banyak berpikir dan verifikasi diri yang berlebihan, yang ingin kami tingkatkan. Kami meluncurkan akses awal ke sebagian kecil pengguna di Windsurf.

Kami menyempurnakan resep RL kami dan menskalakan infrastruktur kami untuk membuka dua urutan besarnya lebih banyak komputasi daripada yang digunakan untuk melatih SWE-1.5. Kami secara signifikan meningkatkan jumlah lingkungan RL dan melihat peningkatan berkelanjutan dengan pelatihan RL lebih lanjut.

Sangat menyenangkan untuk mengamati model belajar berpikir lebih keras dan mengulangi lebih banyak putaran pada masalah SWE-Bench Pro yang sulit. Di sisi lain, kita mengamati pemikiran berlebihan dan verifikasi diri yang berlebihan dalam dogfooding kita sendiri.
Mencari tahu keseimbangan yang tepat antara interaktivitas dan pemikiran jangka panjang adalah bidang penelitian yang aktif.

Kami mengoptimalkan tumpukan pelatihan kami untuk berjalan 6x lebih cepat dari 3 bulan yang lalu. Misalnya, algoritme kami sekarang mentolerir kedaluwarsa yang lebih tinggi yang memungkinkan kami untuk sepenuhnya memanfaatkan mesin inferensi kami.
Dalam postingan blog kami (), kami membagikan detail selengkapnya tentang pengoptimalan pelatihan kami dan cara kami mengelola alokasi GPU untuk RL asinkron.

90
Teratas
Peringkat
Favorit
