Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je ne pense pas que les gens aient réalisé à quel point les résultats de ce nouveau papier TTT + RL de Stanford/Nvidia sont fous.
En entraînant un modèle open source, ils
- ont battu Deepmind AlphaEvolve, découvert une nouvelle limite supérieure pour le problème de chevauchement minimum d'Erdos
- ont développé de nouveaux noyaux GPU A100 2x plus rapides que le meilleur noyau humain
- ont surpassé la meilleure tentative de codage AI et la tentative humaine sur AtCoder
L'idée de l'Entraînement en Temps de Test est d'entraîner un modèle *pendant* qu'il essaie de résoudre une tâche de manière itérative. Combiner cela avec le RL comme ils le font dans ce papier ouvre les vannes des possibilités pour l'apprentissage continu.
Auteurs : @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Meilleurs
Classement
Favoris
