Grupa Ant właśnie udostępniła kod źródłowy LingBot-Depth. Rozwiązuje to najtrudniejsze wyzwanie w percepcji głębokości w robotyce: radzenie sobie z przezroczystymi i odbijającymi obiektami. Roboty mają "oczy" (czujniki), ale zazwyczaj są ślepe na takie rzeczy jak szklane kubki czy błyszczące metalowe miski. Dosłownie patrzą przez nie lub są oślepiane przez odbicia. LingBot-Depth naprawia tę ślepotę, pozwalając robotom "widzieć" i wchodzić w interakcje z niewidzialnym. TLDR: - 10M próbek treningowych (~3,1M starannie wyselekcjonowanych + 7M publicznych) - SOTA w benchmarkach uzupełniania głębokości - Działa dla głębokości monokularnej, stereo, głębokości wideo i śledzenia 3D - Skutecznie chwyta przezroczyste/odbite obiekty w testach z prawdziwymi robotami Więcej szczegółów poniżej 👇 1/6
2/6 Największym problemem obecnie jest to, że standardowe kamery robotów (RGB-D) działają poprzez projektowanie światła w celu pomiaru odległości. Jednak gdy to światło trafia na szklane okno lub lustro, nie odbija się poprawnie, przechodzi przez nie lub się rozprasza. Robot widzi tylko "czarną dziurę" lub szum. Myśli, że nic tam nie ma, więc próbuje przejść przez szklane drzwi lub zgnieść kubek. Rozwiązanie: LingBot-Depth odwraca to. Zamiast filtrować te "czarne dziury", wykorzystuje je jako sygnał do nauki. Uczy AI, aby korzystała z otaczającego kontekstu (stołu, cienia), aby "uzupełnić luki" i zrekonstruować niewidoczny obiekt.
3/6 Wzięli model wizji (enkoder ViT) i wytrenowali go, aby grał w grę "uzupełnij luki" z uszkodzonymi mapami głębokości. Model uczy się patrzeć na: - Co widzi kamera RGB (kolory, krawędzie, cienie) - Częściowe dane głębokości, które DZIAŁAJĄ - Wzory tego, co jest brakujące Następnie rekonstruuje pełną scenę, w tym niewidoczne części. Sprytny pomysł: nie stworzyli fałszywych masek. Po prostu wykorzystali naturalne awarie czujnika jako dane treningowe. Za każdym razem, gdy kamera nie widziała szkła lub metalu, stawało się to lekcją.
4/6 LingBot-Depth przewyższa istniejące metody w standardowych benchmarkach głębokości (iBims, NYUv2) i działa w wielu zadaniach bez potrzeby ponownego trenowania: - Głębokość wideo: Utrzymuje spójność głębokości w kolejnych klatkach, nawet dla ruchomych przezroczystych obiektów - Dopasowanie stereo: Poprawia dokładność w połączeniu z systemami kamer stereo - Śledzenie 3D: Pomaga w płynniejszym śledzeniu obiektów w przestrzeni Generalizuje, ponieważ nauczyło się radzić sobie z "brakującymi informacjami" jako kluczową umiejętnością, a nie jako przypadkiem marginalnym.
5/6 Test Real Robot Zamontowali system na ramieniu robota (Rokae XMate SR5) i postawili przed nim dwa niemożliwe zadania: Przezroczysta skrzynka na przechowywanie - Standardowy czujnik głębokości: całkowita porażka (0 procent sukcesu, nie mógł jej nawet wykryć) - LingBot Depth: 50 procent wskaźnika sukcesu (zobaczył skrzynkę, poprawnie zaplanował chwyt) Odbijająca stalowa filiżanka - Standardowy czujnik: zdezorientowany przez odbicia - LingBot Depth: stały sukces (odtworzył wiarygodną geometrię) To nie tylko lepsze liczby w benchmarku. To robot, który naprawdę potrafi chwycić twój szklankę z wodą, nie przewracając jej.
655