热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
蚂蚁集团刚刚开源了LingBot-Depth。
它解决了机器人技术中最困难的深度感知挑战:处理透明和反射物体。
机器人有“眼睛”(传感器),但它们通常对玻璃杯或光亮金属碗等物体视而不见。它们实际上是透过这些物体看,或者被反射光晃得失明。
LingBot-Depth修复了这种盲目,使机器人能够“看见”并与不可见的物体互动。
简而言之:
- 1000万训练样本(约310万经过筛选 + 700万公共样本)
- 在深度补全基准测试中达到SOTA
- 适用于单目深度、立体深度、视频深度和3D跟踪
- 在真实机器人测试中成功抓取透明/反射物体
更多细节如下 👇 1/6
2/6
目前最大的问题是标准的机器人相机(RGB-D)通过投射光线来测量距离。
但是当光线碰到玻璃窗或镜子时,它不会正确反弹,而是穿过或散射。机器人只看到一个“黑洞”或噪音。它认为那里什么都没有,所以它试图穿过玻璃门或压碎杯子。
解决方案:LingBot-Depth 颠覆了这一点。它不是过滤掉这些“黑洞”,而是将它们作为学习信号。它教会 AI 利用周围的环境(桌子、阴影)来“填补空白”,重建不可见的物体。

3/6
他们采用了一种视觉模型(ViT 编码器),并训练它玩一个 "填空" 游戏,使用破损的深度图。
该模型学习观察:
- RGB 相机所看到的(颜色、边缘、阴影)
- 部分有效的深度数据
- 缺失部分的模式
然后它重建完整的场景,包括不可见的部分。
聪明之处在于:他们没有创建假面具。他们只是利用传感器的自然故障作为训练数据。每当相机无法看到玻璃或金属时,这就成为了一次教训。

4/6
LingBot-Depth 在标准深度基准测试(iBims, NYUv2)上超越了现有方法,并且在多个任务中无需重新训练:
- 视频深度:在帧之间保持深度一致,即使对于移动的透明物体
- 立体匹配:与立体相机系统结合时提高准确性
- 3D 跟踪:帮助更平滑地跟踪物体在空间中的移动
它能够泛化,因为它学会了将“缺失信息”作为核心技能来处理,而不是作为边缘案例。

5/6
真实机器人测试
他们将系统安装在一个机器人手臂(Rokae XMate SR5)上,并给它两个不可能的任务:
透明储物箱
- 标准深度传感器:完全失败(成功率0%,甚至无法检测到)
- LingBot深度:50%的成功率(看到了箱子,正确规划了抓取)
反射钢杯
- 标准传感器:被反射困扰
- LingBot深度:持续成功(重建了合理的几何形状)
这不仅仅是在基准测试中更好的数字。
这是一个实际上可以抓住你的水杯而不把它打翻的机器人。

670
热门
排行
收藏
