热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我认为人们还没有意识到这篇来自斯坦福/Nvidia的新TTT + RL论文的结果有多疯狂。
通过训练一个开源模型,他们
- 超越了Deepmind AlphaEvolve,发现了Erdos最小重叠问题的新上限
- 开发了新的A100 GPU内核,速度比最佳人类内核快2倍
- 在AtCoder上超越了最佳AI编码尝试和人类尝试
测试时间训练的理念是在模型*尝试*逐步解决任务的同时进行训练。将其与RL结合,就像他们在这篇论文中所做的,为持续学习打开了无限可能的闸门。
作者:@mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

热门
排行
收藏
