我认为人们还没有意识到这篇来自斯坦福/Nvidia的新TTT + RL论文的结果有多疯狂。 通过训练一个开源模型,他们 - 超越了Deepmind AlphaEvolve,发现了Erdos最小重叠问题的新上限 - 开发了新的A100 GPU内核,速度比最佳人类内核快2倍 - 在AtCoder上超越了最佳AI编码尝试和人类尝试 测试时间训练的理念是在模型*尝试*逐步解决任务的同时进行训练。将其与RL结合,就像他们在这篇论文中所做的,为持续学习打开了无限可能的闸门。 作者:@mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_