Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group hat gerade LingBot-Depth als Open Source veröffentlicht.
Es löst die schwierigste Herausforderung der Tiefenwahrnehmung in der Robotik: den Umgang mit transparenten und reflektierenden Objekten.
Roboter haben "Augen" (Sensoren), aber sie sind normalerweise blind für Dinge wie Gläser oder glänzende Metallschalen. Sie schauen buchstäblich durch sie hindurch oder werden von Reflexionen geblendet.
LingBot-Depth behebt diese Blindheit, sodass Roboter das Unsichtbare "sehen" und damit interagieren können.
TLDR:
- 10M Trainingsproben (~3,1M kuratiert + 7M öffentlich)
- SOTA bei Tiefenvervollständigungsbenchmarks
- Funktioniert für monokulare Tiefe, Stereo, Videotiefe und 3D-Tracking
- Greift erfolgreich transparente/reflektierende Objekte in realen Robotertests
Weitere Details unten 👇 1/6
2/6
Das größte Problem derzeit ist, dass Standard-Roboterkameras (RGB-D) Licht projizieren, um Entfernungen zu messen.
Aber wenn dieses Licht auf ein Glasfenster oder einen Spiegel trifft, wird es nicht richtig zurückgeworfen, es geht durch oder streut. Der Roboter sieht nur ein "schwarzes Loch" oder Rauschen. Er denkt, dass nichts da ist, also versucht er, durch die Glastür zu gehen oder die Tasse zu zerdrücken.
Lösung: LingBot-Depth kehrt das um. Anstatt diese "schwarzen Löcher" herauszufiltern, nutzt es sie als Lernsignal. Es lehrt die KI, den umgebenden Kontext (den Tisch, den Schatten) zu verwenden, um die "Lücken zu füllen" und das unsichtbare Objekt zu rekonstruieren.

3/6
Sie haben ein Vision-Modell (ViT-Encoder) genommen und es trainiert, um ein "Lückentext"-Spiel mit fehlerhaften Tiefenkarten zu spielen.
Das Modell lernt, auf Folgendes zu achten:
- Was die RGB-Kamera sieht (Farben, Kanten, Schatten)
- Die teilweise funktionierenden Tiefendaten
- Die Muster dessen, was fehlt
Dann rekonstruiert es die gesamte Szene, einschließlich der unsichtbaren Teile.
Der clevere Teil: Sie haben keine falschen Masken erstellt. Sie haben einfach die natürlichen Fehler des Sensors als Trainingsdaten verwendet. Jedes Mal, wenn die Kamera nicht in der Lage war, Glas oder Metall zu sehen, wurde das zu einer Lektion.

4/6
LingBot-Depth übertrifft bestehende Methoden bei standardisierten Tiefenbenchmarks (iBims, NYUv2) und funktioniert über mehrere Aufgaben hinweg ohne erneutes Training:
- Video-Tiefe: Hält die Tiefe über die Frames hinweg konsistent, selbst bei sich bewegenden transparenten Objekten
- Stereo-Matching: Verbessert die Genauigkeit in Kombination mit Stereo-Kamerasystemen
- 3D-Tracking: Hilft, Objekte durch den Raum reibungsloser zu verfolgen
Es generalisiert, weil es gelernt hat, "fehlende Informationen" als zentrale Fähigkeit zu handhaben, nicht als Ausnahmefall.

5/6
Echter Robotertest
Sie haben das System an einem Roboterarm (Rokae XMate SR5) montiert und ihm zwei unmögliche Aufgaben gegeben:
Transparente Aufbewahrungsbox
- Standard-Tiefensensor: vollständiger Misserfolg (0 Prozent Erfolg, konnte sie nicht einmal erkennen)
- LingBot Depth: 50 Prozent Erfolgsquote (sah die Box, plante den Griff korrekt)
Reflektierender Stahlbecher
- Standardsensor: durch Reflexionen verwirrt
- LingBot Depth: konsistenter Erfolg (rekonstruierte plausible Geometrie)
Das sind nicht nur bessere Zahlen in einem Benchmark.
Es ist ein Roboter, der tatsächlich dein Wasserglas greifen kann, ohne es umzuwerfen.

657
Top
Ranking
Favoriten
