蚂蚁集团刚刚开源了LingBot-Depth。 它解决了机器人技术中最困难的深度感知挑战:处理透明和反射物体。 机器人有“眼睛”(传感器),但它们通常对玻璃杯或光亮金属碗等物体视而不见。它们实际上是透过这些物体看,或者被反射光晃得失明。 LingBot-Depth修复了这种盲目,使机器人能够“看见”并与不可见的物体互动。 简而言之: - 1000万训练样本(约310万经过筛选 + 700万公共样本) - 在深度补全基准测试中达到SOTA - 适用于单目深度、立体深度、视频深度和3D跟踪 - 在真实机器人测试中成功抓取透明/反射物体 更多细节如下 👇 1/6
2/6 目前最大的问题是标准的机器人相机(RGB-D)通过投射光线来测量距离。 但是当光线碰到玻璃窗或镜子时,它不会正确反弹,而是穿过或散射。机器人只看到一个“黑洞”或噪音。它认为那里什么都没有,所以它试图穿过玻璃门或压碎杯子。 解决方案:LingBot-Depth 颠覆了这一点。它不是过滤掉这些“黑洞”,而是将它们作为学习信号。它教会 AI 利用周围的环境(桌子、阴影)来“填补空白”,重建不可见的物体。
3/6 他们采用了一种视觉模型(ViT 编码器),并训练它玩一个 "填空" 游戏,使用破损的深度图。 该模型学习观察: - RGB 相机所看到的(颜色、边缘、阴影) - 部分有效的深度数据 - 缺失部分的模式 然后它重建完整的场景,包括不可见的部分。 聪明之处在于:他们没有创建假面具。他们只是利用传感器的自然故障作为训练数据。每当相机无法看到玻璃或金属时,这就成为了一次教训。
4/6 LingBot-Depth 在标准深度基准测试(iBims, NYUv2)上超越了现有方法,并且在多个任务中无需重新训练: - 视频深度:在帧之间保持深度一致,即使对于移动的透明物体 - 立体匹配:与立体相机系统结合时提高准确性 - 3D 跟踪:帮助更平滑地跟踪物体在空间中的移动 它能够泛化,因为它学会了将“缺失信息”作为核心技能来处理,而不是作为边缘案例。
5/6 真实机器人测试 他们将系统安装在一个机器人手臂(Rokae XMate SR5)上,并给它两个不可能的任务: 透明储物箱 - 标准深度传感器:完全失败(成功率0%,甚至无法检测到) - LingBot深度:50%的成功率(看到了箱子,正确规划了抓取) 反射钢杯 - 标准传感器:被反射困扰 - LingBot深度:持续成功(重建了合理的几何形状) 这不仅仅是在基准测试中更好的数字。 这是一个实际上可以抓住你的水杯而不把它打翻的机器人。
670