Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group har precis gjort LingBot-Depth öppen källkod.
Den löser den svåraste djupseendeutmaningen inom robotik: hantering av transparenta och reflekterande föremål.
Robotar har "ögon" (sensorer), men de är oftast blinda för saker som glasmuggar eller blanka metallskålar. De tittar bokstavligen igenom dem eller blir bländade av reflektioner.
LingBot-Depth åtgärdar denna blindhet och låter robotar "se" och interagera med det osynliga.
Sammanfattning:
- 10 miljoner utbildningsprov (~3,1 miljoner kuraterade + 7 miljoner publika)
- SOTA om djupkompletteringsbenchmarks
- Fungerar för monokulärt djup, stereo, videodjup och 3D-spårning
- Lyckas fånga transparenta/reflekterande objekt i verkliga robottester
Fler detaljer nedan 6 👇/1
2/6
Det största problemet just nu är att standardrobotkameror (RGB-D) fungerar genom att projicera ut ljus för att mäta avstånd.
Men när det ljuset träffar ett glasfönster eller en spegel studsar det inte tillbaka korrekt, det går igenom eller sprids. Roboten ser bara ett "svart hål" eller brus. Den tror att inget är där, så den försöker gå genom glasdörren eller krossa koppen.
Lösning: LingBot-Depth vänder detta. Istället för att filtrera bort dessa "svarta hål" använder den dem som en inlärningssignal. Den lär AI:n att använda den omgivande kontexten (bordet, skuggan) för att "fylla i luckorna" och rekonstruera det osynliga objektet.

3/6
De tog en visionsmodell (ViT-kodare) och tränade den att spela ett "fyll-i-luckorna"-spel med trasiga djupkartor.
Modellen lär sig att titta på:
- Vad RGB-kameran ser (färger, kanter, skuggor)
- Den partiella djupdata som FUNGERAR
- Mönstren för vad som saknas
Sedan rekonstruerar den hela scenen, inklusive de osynliga delarna.
Det smarta: de skapade inte fejkade masker. De använde bara sensorns naturliga fel som träningsdata. Varje gång kameran misslyckades med att se glas eller metall blev det en läxa.

4/6
LingBot-Depth slår befintliga metoder på standarddjupbenchmarks (iBims, NYUv2) och arbetar över flera uppgifter utan omträning:
- Videodjup: Håller djupet konsekvent över bildrutor, även för rörliga transparenta objekt
- Stereomatchning: Förbättrar noggrannheten när den kombineras med stereokamerasystem
- 3D-spårning: Hjälper till att spåra objekt genom rymden smidigare
Den generaliserar eftersom den lärt sig hantera "saknad information" som en kärnkompetens, inte som ett undantagsfall.

5/6
Verkligt robottest
De monterade systemet på en robotarm (Rokae XMate SR5) och gav det två omöjliga uppgifter:
Transparent förvaringslåda
- Standard djupsensor: fullständig felfunktion (0 procent framgång, kunde inte ens upptäcka den)
- LingBot Depth: 50 procents framgångsfrekvens (såg lådan, planerade grepp korrekt)
Reflekterande stålkopp
- Standardsensor: förvirrad av reflektioner
- LingBot Depth: konsekvent framgång (rekonstruerad rimlig geometri)
Detta är inte bara bättre siffror på ett riktmärke.
Det är en robot som faktiskt kan ta ditt vattenglas utan att välta det.

668
Topp
Rankning
Favoriter
