Ant Group právě otevřela LingBot-Depth jako open source. Řeší nejtěžší problém vnímání hloubky v robotice: manipulaci s průhlednými a odrazivými objekty. Roboti mají "oči" (senzory), ale obvykle jsou slepí k věcem jako skleněné kelímky nebo lesklé kovové misky. Doslova se jimi dívají nebo jsou oslepeni odrazy. LingBot-Depth tuto slepotu napravuje a umožňuje robotům "vidět" a interagovat s neviditelným. Shrnutí: - 10M tréninkových vzorků (~3,1M kurátorovaných + 7M veřejných) - SOTA o benchmarkech dokončení hloubky - Pracuje pro monokulární hloubku, stereo, hloubku videa a 3D sledování - Úspěšně uchopuje průhledné/reflexní objekty v reálných robotických testech Více podrobností níže 👇 1/6
2/6 Největším problémem v současnosti je, že standardní robotické kamery (RGB-D) fungují tak, že promítají světlo k měření vzdálenosti. Ale když to světlo dopadne na skleněné okno nebo zrcadlo, neodráží se správně, projde skrz nebo se rozptýlí. Robot vidí jen "černou díru" nebo hluk. Myslí si, že tam nic není, a tak se snaží projít skleněnými dveřmi nebo rozdrtit hrnek. Řešení: LingBot-Depth to otočí. Místo aby tyto "černé díry" filtroval, používá je jako učební signál. Učí AI využívat okolní kontext (stůl, stín) k "vyplnění mezer" a rekonstrukci neviditelného objektu.
3/6 Vzali vision model (ViT encoder) a natrénovali ho tak, aby hrál hru "doplňování mezer" s rozbitými depth mapami. Model se učí dívat se na: - Co RGB kamera vidí (barvy, hrany, stíny) - Částečná hloubková data, která FUNGUJÍ - Vzory toho, co chybí Poté rekonstruuje celou scénu, včetně neviditelných částí. Chytrá věc: nevytvořili falešné masky. Použili jen přirozené selhání senzoru jako tréninková data. Pokaždé, když kamera neviděla sklo nebo kov, stalo se to ponaučením.
4/6 LingBot-Depth překonává existující metody na standardních depth benchmarkech (iBims, NYUv2) a pracuje napříč více úkoly bez nutnosti přetrénování: - Hloubka videa: Udržuje konzistentní hloubku napříč snímky, i u pohyblivých průhledných objektů - Stereo sladění: Zlepšuje přesnost v kombinaci se stereo kamerovými systémy - 3D sledování: Pomáhá hladčeji sledovat objekty prostorem Zobecňuje, protože se naučil zacházet s "chybějícími informacemi" jako základní dovedností, ne jako s okrajovým případem.
5/6 Test skutečného robota Systém namontovali na robotické rameno (Rokae XMate SR5) a dali mu dva nemožné úkoly: Průhledná úložná krabice - Standardní hloubkový senzor: úplné selhání (0 procent úspěchu, ani ho nebylo možné detekovat) - LingBot hloubka: úspěšnost 50 procent (viděl krabici, správně naplánoval uchopení) Reflexní ocelový pohár - Standardní senzor: zmatený odrazy - LingBot Depth: konzistentní úspěch (rekonstruovaná věrohodná geometrie) Nejde jen o lepší čísla v benchmarku. Je to robot, který dokáže skutečně chytit vaši sklenici vody, aniž by ji shodil.
646