Stanford/Nvidia'nın bu yeni TTT + RL makalesinin sonuçlarının ne kadar çılgın olduğunu fark etmediğini sanmıyorum. Açık kaynak modeli eğitmek, - Deepmind AlphaEvolve'ı yendi, Erdos'un minimum örtüşme problemi için yeni üst sınır keşfetti - En iyi insan çekirdeğinden 2 kat daha hızlı yeni A100 GPU çekirdekleri geliştirdi - AtCoder'da en iyi yapay zeka kodlama denemesi ve insan denemesini geride bıraktı Test Zamanı Eğitimi fikri, bir modeli *bir görevi yinelemeli olarak çözmeye çalışırken* eğitmektir. Bunu RL ile birleştirmek, bu makalede olduğu gibi, sürekli öğrenme fırsatlarının kapılarını açar Yazarlar: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_