热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🦾开源机器人领域的一个伟大📷里程碑:@physical_int 的 pi0 和 pi0.5 现在已在 @huggingface 上,完全移植到 PyTorch 中,并与 OpenPI 进行了并行验证,供大家实验、微调和部署到他们的机器人中!
正如 Physical Intelligence 所描述的,π₀.₅ 是一个视觉-语言-动作模型,代表了从 π₀ 到 π₀.₅ 的重大进化,旨在解决机器人领域的一个重大挑战:开放世界泛化。
虽然机器人可以在受控环境中执行令人印象深刻的任务,但 π₀.₅ 旨在泛化到在训练期间从未见过的全新环境和情况。
泛化必须在多个层面上进行:
- 物理层面:理解如何拿起勺子(从把手)或盘子(从边缘),即使在杂乱的环境中遇到未见过的物体
- 语义层面:理解任务语义,衣服和鞋子放在哪里(洗衣篮,而不是床上),以及清理溢出物时适合使用的工具
- 环境层面:适应“杂乱”的现实世界环境,如家庭、杂货店、办公室和医院
π₀.₅ 的突破性创新在于对异构数据源的共同训练。该模型从以下方面学习:
- 多模态网络数据:图像标注、视觉问答、物体检测
- 口头指令:人类通过复杂任务逐步指导机器人
- 子任务命令:高层次语义行为标签(例如,“拿起枕头”用于未整理的床)
- 跨体现机器人数据:来自不同能力的各种机器人平台的数据
- 多环境数据:在许多不同家庭中部署的静态机器人
- 移动操作数据:约 400 小时的移动机器人演示
这种多样化的训练组合创建了一个“课程”,使得在物理、视觉和语义层面上同时实现泛化。
非常感谢 @physical_int 团队及贡献者
模型:
LeRobot:

热门
排行
收藏