Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group vient de rendre LingBot-Depth open source.
Il résout le défi le plus difficile de la perception de profondeur en robotique : la gestion des objets transparents et réfléchissants.
Les robots ont des "yeux" (capteurs), mais ils sont généralement aveugles à des choses comme des tasses en verre ou des bols en métal brillant. Ils regardent littéralement à travers eux ou sont éblouis par les reflets.
LingBot-Depth corrige cette cécité, permettant aux robots de "voir" et d'interagir avec l'invisible.
TLDR :
- 10M d'échantillons d'entraînement (~3,1M sélectionnés + 7M publics)
- SOTA sur les benchmarks de complétion de profondeur
- Fonctionne pour la profondeur monoculaire, stéréo, vidéo et le suivi 3D
- Saisit avec succès des objets transparents/réfléchissants lors de tests réels de robots
Plus de détails ci-dessous 👇 1/6
2/6
Le plus gros problème actuellement est que les caméras robotisées standard (RGB-D) fonctionnent en projetant de la lumière pour mesurer la distance.
Mais lorsque cette lumière frappe une vitre ou un miroir, elle ne rebondit pas correctement, elle passe à travers ou se disperse. Le robot voit juste un "trou noir" ou du bruit. Il pense qu'il n'y a rien là, donc il essaie de traverser la porte en verre ou d'écraser la tasse.
Solution : LingBot-Depth inverse cela. Au lieu de filtrer ces "trous noirs", il les utilise comme un signal d'apprentissage. Il enseigne à l'IA à utiliser le contexte environnant (la table, l'ombre) pour "compléter les blancs" et reconstruire l'objet invisible.

3/6
Ils ont pris un modèle de vision (encodeur ViT) et l'ont entraîné à jouer à un jeu de "remplir les blancs" avec des cartes de profondeur défectueuses.
Le modèle apprend à regarder :
- Ce que la caméra RGB voit (couleurs, contours, ombres)
- Les données de profondeur partielles qui fonctionnent
- Les motifs de ce qui manque
Ensuite, il reconstruit la scène complète, y compris les parties invisibles.
Le point astucieux : ils n'ont pas créé de masques faux. Ils ont simplement utilisé les échecs naturels du capteur comme données d'entraînement. Chaque fois que la caméra ne parvenait pas à voir du verre ou du métal, cela devenait une leçon.

4/6
LingBot-Depth surpasse les méthodes existantes sur des benchmarks de profondeur standard (iBims, NYUv2) et fonctionne sur plusieurs tâches sans réentraînement :
- Profondeur vidéo : Maintient la profondeur cohérente à travers les images, même pour des objets transparents en mouvement
- Correspondance stéréo : Améliore la précision lorsqu'il est combiné avec des systèmes de caméras stéréo
- Suivi 3D : Aide à suivre les objets dans l'espace de manière plus fluide
Il se généralise parce qu'il a appris à gérer "l'information manquante" comme une compétence essentielle, et non comme un cas particulier.

5/6
Test de Robot Réel
Ils ont monté le système sur un bras robotique (Rokae XMate SR5) et lui ont donné deux tâches impossibles :
Boîte de rangement transparente
- Capteur de profondeur standard : échec complet (0 pour cent de succès, n'a même pas pu la détecter)
- LingBot Depth : taux de succès de 50 pour cent (a vu la boîte, a planifié la prise correctement)
Tasse en acier réfléchissant
- Capteur standard : confus par les réflexions
- LingBot Depth : succès constant (a reconstruit une géométrie plausible)
Ce ne sont pas juste de meilleurs chiffres sur un benchmark.
C'est un robot qui peut réellement saisir votre verre d'eau sans le renverser.

667
Meilleurs
Classement
Favoris
