En usko, että ihmiset ovat tajunneet, kuinka hulluja tulokset ovat tästä uudesta TTT + RL -artikkelista Stanfordilta/Nvidialta. Avoimen lähdekoodin mallin kouluttaminen - voitti Deepmind AlphaEvolven, löysi uuden ylärajan Erdosin minimipäällekkäisyysongelmalle - Kehitti uudet A100-GPU-ytimet kaksi kertaa nopeammin kuin paras ihmisytimen - Päihitti parhaan tekoälykoodausyrityksen ja ihmisen yrityksen AtCoderissa Test Time Trainingin idea on kouluttaa mallia *samalla* kun se yrittää iteratiivisesti ratkaista tehtävää. Yhdistämällä tämän RL:ään, kuten tässä artikkelissa tehdään, avautuu jatkuvan oppimisen mahdollisuuksien tulvaportit Kirjoittajat: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_