Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya tidak berpikir orang menyadari betapa gilanya hasilnya dari makalah TTT + RL baru dari Stanford/Nvidia ini.
Melatih model open source, mereka
- mengalahkan Deepmind AlphaEvolve, menemukan batas atas baru untuk masalah tumpang tindih minimum Erdos
- Mengembangkan kernel GPU A100 baru 2x lebih cepat dari kernel manusia terbaik
- Mengungguli upaya pengkodean AI terbaik dan upaya manusia di AtCoder
Ide Pelatihan Waktu Tes adalah untuk melatih model *sementara* secara berulang mencoba menyelesaikan tugas. Menggabungkan ini dengan RL seperti yang mereka lakukan dalam makalah ini membuka pintu air kemungkinan untuk pembelajaran berkelanjutan
Penulis: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Teratas
Peringkat
Favorit
