Je ne pense pas que les gens aient réalisé à quel point les résultats de ce nouveau papier TTT + RL de Stanford/Nvidia sont fous. En entraînant un modèle open source, ils - ont battu Deepmind AlphaEvolve, découvert une nouvelle limite supérieure pour le problème de chevauchement minimum d'Erdos - ont développé de nouveaux noyaux GPU A100 2x plus rapides que le meilleur noyau humain - ont surpassé la meilleure tentative de codage AI et la tentative humaine sur AtCoder L'idée de l'Entraînement en Temps de Test est d'entraîner un modèle *pendant* qu'il essaie de résoudre une tâche de manière itérative. Combiner cela avec le RL comme ils le font dans ce papier ouvre les vannes des possibilités pour l'apprentissage continu. Auteurs : @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_