Nie sądzę, żeby ludzie zdali sobie sprawę, jak szalone są wyniki z tego nowego artykułu TTT + RL z Stanford/Nvidia. Trenując model open source, oni - pokonali Deepmind AlphaEvolve, odkryli nową górną granicę dla problemu minimalnego nakładania się Erdosa - opracowali nowe jądra GPU A100 2x szybsze niż najlepsze ludzkie jądro - przewyższyli najlepszą próbę kodowania AI i ludzką próbę na AtCoder Pomysł Test Time Training polega na trenowaniu modelu *podczas* gdy iteracyjnie próbuje rozwiązać zadanie. Połączenie tego z RL, jak robią to w tym artykule, otwiera bramy możliwości dla uczenia się ciągłego. Autorzy: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_