Saya tidak berpikir orang menyadari betapa gilanya hasilnya dari makalah TTT + RL baru dari Stanford/Nvidia ini. Melatih model open source, mereka - mengalahkan Deepmind AlphaEvolve, menemukan batas atas baru untuk masalah tumpang tindih minimum Erdos - Mengembangkan kernel GPU A100 baru 2x lebih cepat dari kernel manusia terbaik - Mengungguli upaya pengkodean AI terbaik dan upaya manusia di AtCoder Ide Pelatihan Waktu Tes adalah untuk melatih model *sementara* secara berulang mencoba menyelesaikan tugas. Menggabungkan ini dengan RL seperti yang mereka lakukan dalam makalah ini membuka pintu air kemungkinan untuk pembelajaran berkelanjutan Penulis: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_