🦾开源机器人领域的一个伟大📷里程碑:@physical_int 的 pi0 和 pi0.5 现在已在 @huggingface 上,完全移植到 PyTorch 中,并与 OpenPI 进行了并行验证,供大家实验、微调和部署到他们的机器人中! 正如 Physical Intelligence 所描述的,π₀.₅ 是一个视觉-语言-动作模型,代表了从 π₀ 到 π₀.₅ 的重大进化,旨在解决机器人领域的一个重大挑战:开放世界泛化。 虽然机器人可以在受控环境中执行令人印象深刻的任务,但 π₀.₅ 旨在泛化到在训练期间从未见过的全新环境和情况。 泛化必须在多个层面上进行: - 物理层面:理解如何拿起勺子(从把手)或盘子(从边缘),即使在杂乱的环境中遇到未见过的物体 - 语义层面:理解任务语义,衣服和鞋子放在哪里(洗衣篮,而不是床上),以及清理溢出物时适合使用的工具 - 环境层面:适应“杂乱”的现实世界环境,如家庭、杂货店、办公室和医院 π₀.₅ 的突破性创新在于对异构数据源的共同训练。该模型从以下方面学习: - 多模态网络数据:图像标注、视觉问答、物体检测 - 口头指令:人类通过复杂任务逐步指导机器人 - 子任务命令:高层次语义行为标签(例如,“拿起枕头”用于未整理的床) - 跨体现机器人数据:来自不同能力的各种机器人平台的数据 - 多环境数据:在许多不同家庭中部署的静态机器人 - 移动操作数据:约 400 小时的移动机器人演示 这种多样化的训练组合创建了一个“课程”,使得在物理、视觉和语义层面上同时实现泛化。 非常感谢 @physical_int 团队及贡献者 模型: LeRobot: