Ant Group ha appena rilasciato LingBot-Depth. Affronta la sfida più difficile nella percezione della profondità nella robotica: gestire oggetti trasparenti e riflettenti. I robot hanno "occhi" (sensori), ma di solito sono ciechi a cose come bicchieri di vetro o ciotole di metallo lucido. Letteralmente guardano attraverso di essi o vengono accecati dai riflessi. LingBot-Depth risolve questa cecità, permettendo ai robot di "vedere" e interagire con l'invisibile. TLDR: - 10M campioni di addestramento (~3,1M curati + 7M pubblici) - SOTA nei benchmark di completamento della profondità - Funziona per profondità monoculare, stereo, profondità video e tracciamento 3D - Afferra con successo oggetti trasparenti/riflettenti in test reali con robot Ulteriori dettagli qui sotto 👇 1/6
2/6 Il problema più grande attualmente è che le telecamere robotiche standard (RGB-D) funzionano proiettando luce per misurare la distanza. Ma quando quella luce colpisce una finestra di vetro o uno specchio, non rimbalza correttamente, passa attraverso o si disperde. Il robot vede solo un "buco nero" o rumore. Pensa che non ci sia nulla, quindi cerca di attraversare la porta di vetro o schiacciare la tazza. Soluzione: LingBot-Depth capovolge questo. Invece di filtrare quei "buchi neri", li utilizza come segnale di apprendimento. Insegna all'AI a usare il contesto circostante (il tavolo, l'ombra) per "riempire i vuoti" e ricostruire l'oggetto invisibile.
3/6 Hanno preso un modello di visione (encoder ViT) e lo hanno addestrato a giocare a un gioco di "riempi gli spazi vuoti" con mappe di profondità danneggiate. Il modello impara a guardare: - Cosa vede la fotocamera RGB (colori, bordi, ombre) - I dati di profondità parziali che FUNZIONANO - I modelli di ciò che manca Poi ricostruisce l'intera scena, comprese le parti invisibili. La parte intelligente: non hanno creato maschere false. Hanno semplicemente utilizzato i fallimenti naturali del sensore come dati di addestramento. Ogni volta che la fotocamera non riusciva a vedere vetro o metallo, quello diventava una lezione.
4/6 LingBot-Depth supera i metodi esistenti nei benchmark standard di profondità (iBims, NYUv2) e funziona su più compiti senza riaddestramento: - Profondità video: Mantiene la profondità coerente tra i fotogrammi, anche per oggetti trasparenti in movimento - Abbinamento stereo: Migliora l'accuratezza quando combinato con sistemi di telecamere stereo - Tracciamento 3D: Aiuta a tracciare gli oggetti nello spazio in modo più fluido Si generalizza perché ha imparato a gestire "informazioni mancanti" come abilità fondamentale, non come un caso limite.
5/6 Test del Robot Reale Hanno montato il sistema su un braccio robotico (Rokae XMate SR5) e gli hanno dato due compiti impossibili: Scatola di stoccaggio trasparente - Sensore di profondità standard: fallimento totale (0 percento di successo, non è riuscito nemmeno a rilevarla) - LingBot Depth: tasso di successo del 50 percento (ha visto la scatola, ha pianificato correttamente la presa) Tazza in acciaio riflettente - Sensore standard: confuso dai riflessi - LingBot Depth: successo costante (ha ricostruito una geometria plausibile) Questi non sono solo numeri migliori su un benchmark. È un robot che può effettivamente afferrare il tuo bicchiere d'acqua senza rovesciarlo.
655