热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jim Fan
NVIDIA 机器人总监和杰出科学家。GEAR 实验室联合负责人。解决物理 AGI,一次一个电机。斯坦福大学博士 OpenAI 的第 1 名实习生。
我在机器人领域观察到一个迷你版的莫拉维克悖论:对人类来说困难的体操动作,对机器人来说却要简单得多,而像烹饪、清洁和组装这样的“无趣”任务却相对困难。这导致了外行人产生认知失调,“所以,机器人可以做跑酷和霹雳舞,但为什么它们不能照顾我的狗?”相信我,我的父母问过我这个问题的次数比你想象的要多……
“机器人莫拉维克悖论”也造成了物理AI能力远比实际更先进的错觉。我并不是单独指责Unitree,因为这适用于行业内所有最近的杂技演示。这里有一个简单的测试:如果你在侧翻机器人面前设置一面墙,它会全力撞上去,制造出一场壮观的场面。因为它只是过拟合了那一个参考动作,而对周围环境没有任何意识。
悖论存在的原因是:训练一个“盲人体操运动员”要比训练一个能够看见和操控的机器人容易得多。前者可以完全在模拟中解决,并且可以零样本转移到现实世界,而后者则需要极其真实的渲染、接触物理和混乱的现实物体动态——这些都无法很好地模拟。
想象一下,你可以从一个纯手工制作的文本控制台游戏中训练LLM,而不是从互联网。机器人专家们运气不错。我们恰好生活在一个加速物理引擎如此优秀的世界中,以至于我们可以在几乎没有真实数据的情况下实现令人印象深刻的杂技表演。但我们尚未发现通用灵巧性的同样作弊代码。
在那之前,我们仍然会被困惑的父母质疑。
318.93K
我对AGI的标准简单得多:一个AI在任何人的家里为任何菜系做一顿美味的晚餐。物理图灵测试很可能比诺贝尔奖更难。莫拉维克悖论将继续困扰我们,在未来十年中愈发显得重要和阴暗。

Thomas Wolf7月19日 16:06
我对AGI的标准是,一个AI获得诺贝尔奖,因其原创的新理论。
99.01K
我最近在X上有点安静。过去一年是一个变革的经历。Grok-4和Kimi K2都很棒,但机器人技术的世界就像一个奇妙的西部荒野。感觉就像2018年的自然语言处理,当时GPT-1发布,BERT和其他一千朵花也相继绽放。没有人知道哪个最终会成为ChatGPT。辩论非常激烈。熵值高得惊人。想法非常有趣。
我相信机器人的GPT-1已经在Arxiv的某个地方,但我们不知道确切是哪个。可能是世界模型、强化学习、从人类视频学习、sim2real、real2sim等等,或者它们的任何组合。辩论依然激烈。熵值高得惊人。想法非常有趣,而不是在AIME和GPQA上挤出最后的几个百分点。
机器人的本质也大大复杂化了设计空间。与LLM(文本字符串)干净的比特世界不同,我们的机器人专家必须处理混乱的原子世界。毕竟,循环中有一块软件定义的金属。LLM的普通人可能很难相信,但到目前为止,机器人专家仍然无法就基准达成一致!不同的机器人有不同的能力范围——有些在杂技方面表现更好,而其他则在物体操作方面更强。有些是为工业用途而设计的,而其他则是为家庭任务而设计的。跨体现不仅仅是一个研究新奇,而是一个通用机器人大脑的基本特征。
我与来自各种机器人公司的数十位C-suite领导进行了交谈,无论是老公司还是新公司。有些出售整个身体。有些出售如灵巧手这样的身体部件。还有许多其他公司出售制造新身体、创建模拟或收集大量数据的铲子。商业创意空间与研究本身一样狂野。这是一场新的淘金热,自2022年ChatGPT浪潮以来,我们还没有见过这样的情况。
进入的最佳时机是当非共识达到顶峰时。我们仍然处于损失曲线的开始阶段——有强烈的生命迹象,但距离收敛还远得很。每一步梯度都将我们带入未知。但我确实知道一件事——没有触摸、感受和在混乱的世界中具身,就没有AGI。
在更个人的层面上——经营一个研究实验室带来了全新的责任感。直接向一家价值4万亿美元公司的CEO汇报进展,温和地说,这既令人兴奋又消耗了我所有的注意力。过去我可以跟上并深入了解每一条AI新闻的日子已经一去不复返了。
我会尽量抽出时间分享我的更多旅程。

876.92K
在未来的十年里,总有一天,我们会在每个家庭、每家医院和工厂中看到机器人,它们以超人的灵巧完成每一项枯燥和危险的工作。那一天将被称为“星期四”。即使是图灵也不敢在他最狂野的梦想中想象我们的时代。

signüll2025年4月21日
我们通过了图灵测试,但没人在乎。没有庆祝游行,没有头版头条新闻。只是……一种随意的耸肩反应,就像“哦,对了,机器现在已经聪明到可以骗过我们了。话说回来,午饭吃什么?”
这种沉默告诉你我们前进的速度有多快。
回想我在计算机科学课上,图灵测试被视为最终的挑战。现在,每一次突破都像是另一个普通的星期二。
101.93K
2030年的人形奥林匹克将会是一场盛大的盛会

Jim Fan2025年2月5日
我们将类人机器人与克里斯蒂亚诺·罗纳尔多、勒布朗·詹姆斯和科比·布莱恩特进行了RL训练!这些是运行在我们GEAR实验室真实硬件上的神经网络。你在网上看到的大多数机器人演示视频都是加速播放的。我们实际上是*减慢它们的速度*,以便你可以欣赏流畅的动作。
我很高兴地宣布“ASAP”,一个“real2sim2real”模型,掌握了极其平滑和动态的类人全身控制动作。
我们首先在模拟中对机器人进行预训练,但存在一个臭名昭著的“sim2real”差距:手工设计的物理方程很难与现实世界的动态相匹配。
我们的解决方案很简单:只需在真实硬件上部署预训练的策略,收集数据,然后在模拟中重放动作。重放显然会有很多错误,但这提供了丰富的信号来补偿物理差异。使用另一个神经网络来学习差异。基本上,我们“修补”了传统的物理引擎,使机器人能够在GPU上几乎体验到真实世界的规模。
未来是混合模拟:结合经过数十年精炼的经典模拟引擎的力量和现代神经网络捕捉混乱世界的非凡能力。
45.81K
我们将类人机器人与克里斯蒂亚诺·罗纳尔多、勒布朗·詹姆斯和科比·布莱恩特进行了RL训练!这些是运行在我们GEAR实验室真实硬件上的神经网络。你在网上看到的大多数机器人演示视频都是加速播放的。我们实际上是*减慢它们的速度*,以便你可以欣赏流畅的动作。
我很高兴地宣布“ASAP”,一个“real2sim2real”模型,掌握了极其平滑和动态的类人全身控制动作。
我们首先在模拟中对机器人进行预训练,但存在一个臭名昭著的“sim2real”差距:手工设计的物理方程很难与现实世界的动态相匹配。
我们的解决方案很简单:只需在真实硬件上部署预训练的策略,收集数据,然后在模拟中重放动作。重放显然会有很多错误,但这提供了丰富的信号来补偿物理差异。使用另一个神经网络来学习差异。基本上,我们“修补”了传统的物理引擎,使机器人能够在GPU上几乎体验到真实世界的规模。
未来是混合模拟:结合经过数十年精炼的经典模拟引擎的力量和现代神经网络捕捉混乱世界的非凡能力。
543.11K
今天有一篇*第二*篇论文发布,里面包含了大量的RL飞轮秘密和*多模态*的o1风格推理,这可不是我今天的预期。Kimi(另一家初创公司)和DeepSeek的论文在相似的发现上惊人地趋同:
> 不需要像MCTS那样复杂的树搜索。只需线性化思维轨迹,进行传统的自回归预测;
> 不需要需要另一个昂贵模型副本的价值函数;
> 不需要密集的奖励建模。尽可能依赖真实数据,最终结果。
差异:
> DeepSeek采用AlphaZero方法——完全通过RL自举,没有人类输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过提示工程化的CoT轨迹进行轻量级SFT预热。
> DeepSeek的权重是MIT许可证(思想领导力!);Kimi尚未发布模型。
> Kimi在MathVista等基准测试上表现出强大的多模态性能(!),这需要对几何、智商测试等的视觉理解。
> Kimi的论文在系统设计方面有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT压缩、课程、采样策略、测试用例生成等。
在假期中阅读这些令人振奋的内容!

300.42K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可