Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group ha appena rilasciato LingBot-Depth.
Affronta la sfida più difficile nella percezione della profondità nella robotica: gestire oggetti trasparenti e riflettenti.
I robot hanno "occhi" (sensori), ma di solito sono ciechi a cose come bicchieri di vetro o ciotole di metallo lucido. Letteralmente guardano attraverso di essi o vengono accecati dai riflessi.
LingBot-Depth risolve questa cecità, permettendo ai robot di "vedere" e interagire con l'invisibile.
TLDR:
- 10M campioni di addestramento (~3,1M curati + 7M pubblici)
- SOTA nei benchmark di completamento della profondità
- Funziona per profondità monoculare, stereo, profondità video e tracciamento 3D
- Afferra con successo oggetti trasparenti/riflettenti in test reali con robot
Ulteriori dettagli qui sotto 👇 1/6
2/6
Il problema più grande attualmente è che le telecamere robotiche standard (RGB-D) funzionano proiettando luce per misurare la distanza.
Ma quando quella luce colpisce una finestra di vetro o uno specchio, non rimbalza correttamente, passa attraverso o si disperde. Il robot vede solo un "buco nero" o rumore. Pensa che non ci sia nulla, quindi cerca di attraversare la porta di vetro o schiacciare la tazza.
Soluzione: LingBot-Depth capovolge questo. Invece di filtrare quei "buchi neri", li utilizza come segnale di apprendimento. Insegna all'AI a usare il contesto circostante (il tavolo, l'ombra) per "riempire i vuoti" e ricostruire l'oggetto invisibile.

3/6
Hanno preso un modello di visione (encoder ViT) e lo hanno addestrato a giocare a un gioco di "riempi gli spazi vuoti" con mappe di profondità danneggiate.
Il modello impara a guardare:
- Cosa vede la fotocamera RGB (colori, bordi, ombre)
- I dati di profondità parziali che FUNZIONANO
- I modelli di ciò che manca
Poi ricostruisce l'intera scena, comprese le parti invisibili.
La parte intelligente: non hanno creato maschere false. Hanno semplicemente utilizzato i fallimenti naturali del sensore come dati di addestramento. Ogni volta che la fotocamera non riusciva a vedere vetro o metallo, quello diventava una lezione.

4/6
LingBot-Depth supera i metodi esistenti nei benchmark standard di profondità (iBims, NYUv2) e funziona su più compiti senza riaddestramento:
- Profondità video: Mantiene la profondità coerente tra i fotogrammi, anche per oggetti trasparenti in movimento
- Abbinamento stereo: Migliora l'accuratezza quando combinato con sistemi di telecamere stereo
- Tracciamento 3D: Aiuta a tracciare gli oggetti nello spazio in modo più fluido
Si generalizza perché ha imparato a gestire "informazioni mancanti" come abilità fondamentale, non come un caso limite.

5/6
Test del Robot Reale
Hanno montato il sistema su un braccio robotico (Rokae XMate SR5) e gli hanno dato due compiti impossibili:
Scatola di stoccaggio trasparente
- Sensore di profondità standard: fallimento totale (0 percento di successo, non è riuscito nemmeno a rilevarla)
- LingBot Depth: tasso di successo del 50 percento (ha visto la scatola, ha pianificato correttamente la presa)
Tazza in acciaio riflettente
- Sensore standard: confuso dai riflessi
- LingBot Depth: successo costante (ha ricostruito una geometria plausibile)
Questi non sono solo numeri migliori su un benchmark.
È un robot che può effettivamente afferrare il tuo bicchiere d'acqua senza rovesciarlo.

655
Principali
Ranking
Preferiti
