Ant GroupがLingBot-Depthをオープンソース化しました。 これはロボット工学における最も難しい奥行き知覚の課題、すなわち透明で反射する物体の扱いを解決します。 ロボットには「目」(センサー)がありますが、ガラスカップや光沢のある金属のボウルなどには通常は見えません。文字通り鏡を通して見たり、反射に目がくらんだりします。 LingBot-Depthはこの盲目を修正し、ロボットが「見る」ことや見えないものと相互作用できるようにします。 要約: - 1000万のトレーニングサンプル(~310万のキュレーション+700万の公開サンプル) - 深度完了ベンチマークに関するSOTA - 単眼深度、ステレオ、ビデオ深度、3Dトラッキングに対応しています - 実際のロボットテストで透明・反射物体を成功裏に掴むこと 詳細は1/6以下👇に記載
2/6 現在の最大の問題は、標準的なロボットカメラ(RGB-D)が光を投影して距離を測ることです。 しかし、その光がガラス窓や鏡に当たると、正しく反射せず、通過したり散乱したりします。ロボットはただ「ブラックホール」やノイズを見ているだけです。何もないと思い込み、ガラスの扉を通り抜けたりカップを潰そうとします。 解決策:LingBot-Depthはこれを逆転させています。それらの「ブラックホール」をフィルタリングする代わりに、学習信号として利用しています。AIに周囲の文脈(テーブルや影)を使って「空白を埋める」こと、見えない物体を再構築することを教えます。
3/6 彼らはビジョンモデル(ViTエンコーダー)を使い、壊れた深度マップで「空白埋め」ゲームをプレイするように訓練しました。 モデルは以下の点を見ることを学びます: - RGBカメラが感知するもの(色、エッジ、影) - 動作している部分的な深度データ - 欠けているもののパターン その後、見えない部分を含むシーン全体を再構築します。 賢い点は、偽のマスクは作らなかったことです。彼らはセンサーの自然な故障を訓練データとして使っただけです。カメラがガラスや金属を捉えられなかったたびに、それが教訓となりました。
4/6 LingBot-Depthは標準的な深度ベンチマーク(iBims、NYUv2)で既存の手法を上回り、複数のタスクで再訓練なしで動作します。 - ビデオ深度:動く透明物体であってもフレーム間で深度を一貫性に保つ - ステレオマッチング:ステレオカメラシステムと組み合わせることで精度を向上させる - 3Dトラッキング:空間内で物体をよりスムーズに追跡するのに役立ちます これは「欠落情報」を例外的なケースではなく、コアスキルとして扱うことを学んだため、一般化しています。
5/6 リアルロボットテスト 彼らはシステムをロボットアーム(Rokae XMate SR5)に搭載し、2つの不可能な課題を与えました。 透明な収納箱 - 標準深度センサー:完全故障(成功率0%、検出すらできません) - LingBot Depth:成功率50%(箱を見、計画的に正しく掴む) 反射鋼製カップ - 標準センサー:反射に混乱します - LingBot Depth:一貫した成功(再構築された妥当な幾何学) これは単にベンチマークの数字が良いだけではありません。 これは水のグラスを倒さずに実際に掴めるロボットです。
663