熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
螞蟻集團剛剛開源了 LingBot-Depth。
它解決了機器人學中最困難的深度感知挑戰:處理透明和反射物體。
機器人有 "眼睛"(傳感器),但它們通常對玻璃杯或閃亮的金屬碗等物體視而不見。它們實際上是透過這些物體看,或者被反射光線所眩目。
LingBot-Depth 修復了這種盲目,讓機器人能夠 "看見" 並與不可見的物體互動。
簡而言之:
- 1000 萬個訓練樣本(約 310 萬個精選 + 700 萬個公共樣本)
- 在深度補全基準測試中達到 SOTA
- 適用於單目深度、立體深度、視頻深度和 3D 追蹤
- 在真實機器人測試中成功抓取透明/反射物體
更多細節如下 👇 1/6
2/6
目前最大的問題是標準的機器人相機(RGB-D)是通過投射光線來測量距離。
但是當光線碰到玻璃窗或鏡子時,它不會正確反彈,而是穿過或散射。機器人只看到一個「黑洞」或噪音。它認為什麼都不存在,因此試圖穿過玻璃門或壓碎杯子。
解決方案:LingBot-Depth 翻轉了這一點。它不是過濾掉這些「黑洞」,而是將它們用作學習信號。它教導 AI 使用周圍的上下文(桌子、陰影)來「填補空白」,並重建不可見的物體。

3/6
他們採用了視覺模型(ViT 編碼器),並訓練它玩一個 "填空" 遊戲,使用破損的深度圖。
該模型學會觀察:
- RGB 相機所看到的(顏色、邊緣、陰影)
- 部分有效的深度數據
- 缺失部分的模式
然後它重建完整的場景,包括不可見的部分。
巧妙之處在於:他們並沒有創建假面具。他們只是利用傳感器的自然故障作為訓練數據。每當相機無法看到玻璃或金屬時,那就成為了一課。

4/6
LingBot-Depth 在標準深度基準(iBims, NYUv2)上超越現有方法,並且在多個任務中無需重新訓練即可運作:
- 視頻深度:即使對於移動的透明物體,也能保持幀之間的深度一致性
- 立體匹配:與立體相機系統結合時提高準確性
- 3D 跟踪:幫助更平滑地跟踪物體在空間中的運動
它之所以能夠泛化,是因為它學會了將「缺失信息」作為核心技能來處理,而不是邊緣案例。

5/6
真實機器人測試
他們將系統安裝在一個機器手臂(Rokae XMate SR5)上,並給予它兩個不可能的任務:
透明儲物箱
- 標準深度感測器:完全失敗(成功率0%,甚至無法檢測到)
- LingBot 深度:50% 的成功率(看到了箱子,正確規劃了抓取)
反射鋼杯
- 標準感測器:被反射困惑
- LingBot 深度:穩定成功(重建了合理的幾何形狀)
這不僅僅是在基準測試上有更好的數字。
這是一個實際能夠抓住你的水杯而不會打翻的機器人。

671
熱門
排行
收藏
