一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

蚂蚁集团刚刚开源了LingBot-Depth。它解决了机器人技术中最困难的深度感知挑战：处理透明和反射物体。机器人有“眼睛”（传感器），但它们通常对玻璃杯或光亮金属碗等物体视而不见。它们实际上是透过这些物体看，或者被反射光晃得失明。 LingBot-Depth修复了这种盲目，使机器人能够“看见”并与不可见的物体互动。简而言之： - 1000万训练样本（约310万经过筛选 + 700万公共样本） - 在深度补全基准测试中达到SOTA - 适用于单目深度、立体深度、视频深度和3D跟踪 - 在真实机器人测试中成功抓取透明/反射物体更多细节如下 👇 1/6

2/6 目前最大的问题是标准的机器人相机（RGB-D）通过投射光线来测量距离。但是当光线碰到玻璃窗或镜子时，它不会正确反弹，而是穿过或散射。机器人只看到一个“黑洞”或噪音。它认为那里什么都没有，所以它试图穿过玻璃门或压碎杯子。解决方案：LingBot-Depth 颠覆了这一点。它不是过滤掉这些“黑洞”，而是将它们作为学习信号。它教会 AI 利用周围的环境（桌子、阴影）来“填补空白”，重建不可见的物体。

3/6 他们采用了一种视觉模型（ViT 编码器），并训练它玩一个 "填空" 游戏，使用破损的深度图。该模型学习观察： - RGB 相机所看到的（颜色、边缘、阴影） - 部分有效的深度数据 - 缺失部分的模式然后它重建完整的场景，包括不可见的部分。聪明之处在于：他们没有创建假面具。他们只是利用传感器的自然故障作为训练数据。每当相机无法看到玻璃或金属时，这就成为了一次教训。

4/6 LingBot-Depth 在标准深度基准测试（iBims, NYUv2）上超越了现有方法，并且在多个任务中无需重新训练： - 视频深度：在帧之间保持深度一致，即使对于移动的透明物体 - 立体匹配：与立体相机系统结合时提高准确性 - 3D 跟踪：帮助更平滑地跟踪物体在空间中的移动它能够泛化，因为它学会了将“缺失信息”作为核心技能来处理，而不是作为边缘案例。

5/6 真实机器人测试他们将系统安装在一个机器人手臂（Rokae XMate SR5）上，并给它两个不可能的任务：透明储物箱 - 标准深度传感器：完全失败（成功率0%，甚至无法检测到） - LingBot深度：50%的成功率（看到了箱子，正确规划了抓取）反射钢杯 - 标准传感器：被反射困扰 - LingBot深度：持续成功（重建了合理的几何形状）这不仅仅是在基准测试中更好的数字。这是一个实际上可以抓住你的水杯而不把它打翻的机器人。

670