Jeg tror ikke folk har innsett hvor sprø resultatene fra denne nye TTT + RL-artikkelen fra Stanford/Nvidia er. De trener en åpen kildekode-modell, de - slo Deepmind AlphaEvolve, oppdaget ny øvre grense for Erdos' minimum overlap-problem - Utviklet nye A100 GPU-kjerner 2 ganger raskere enn den beste menneskelige kjernen - Overgikk det beste AI-kodingsforsøket og det beste menneskelige forsøket på AtCoder Ideen med Test Time Training er å trene en modell *mens* den iterativt prøver å løse en oppgave. Å kombinere dette med RL slik de gjør i denne artikkelen, åpner slusene for muligheter for kontinuerlig læring Forfattere: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_