Ant Group acaba de abrir el código de LingBot-Depth. Resuelve el desafío más difícil de percepción de profundidad en robótica: manejar objetos transparentes y reflectantes. Los robots tienen "ojos" (sensores), pero suelen ser ciegos a cosas como vasos de vidrio o cuencos de metal brillantes. Literalmente, miran a través de ellos o se deslumbran por los reflejos. LingBot-Depth soluciona esta ceguera, permitiendo a los robots "ver" e interactuar con lo invisible. Resumen: - 10M de muestras de entrenamiento (~3.1M curadas + 7M públicas) - SOTA en benchmarks de completación de profundidad - Funciona para profundidad monocular, estéreo, profundidad de video y seguimiento 3D - Agarra con éxito objetos transparentes/reflectantes en pruebas reales de robots Más detalles a continuación 👇 1/6
2/6 El mayor problema actualmente es que las cámaras robóticas estándar (RGB-D) funcionan proyectando luz para medir la distancia. Pero cuando esa luz choca con una ventana de vidrio o un espejo, no rebota correctamente, pasa a través o se dispersa. El robot solo ve un "agujero negro" o ruido. Piensa que no hay nada allí, por lo que intenta atravesar la puerta de vidrio o aplastar la taza. Solución: LingBot-Depth invierte esto. En lugar de filtrar esos "agujeros negros", los utiliza como una señal de aprendizaje. Enseña a la IA a usar el contexto circundante (la mesa, la sombra) para "llenar los espacios en blanco" y reconstruir el objeto invisible.
3/6 Tomaron un modelo de visión (codificador ViT) y lo entrenaron para jugar un juego de "completar los espacios" con mapas de profundidad rotos. El modelo aprende a observar: - Lo que ve la cámara RGB (colores, bordes, sombras) - Los datos de profundidad parciales que SÍ están funcionando - Los patrones de lo que falta Luego reconstruye la escena completa, incluyendo las partes invisibles. Lo ingenioso: no crearon máscaras falsas. Simplemente utilizaron las fallas naturales del sensor como datos de entrenamiento. Cada vez que la cámara no podía ver vidrio o metal, eso se convertía en una lección.
4/6 LingBot-Depth supera los métodos existentes en los estándares de profundidad (iBims, NYUv2) y funciona en múltiples tareas sin necesidad de reentrenamiento: - Profundidad de video: Mantiene la profundidad consistente a través de los fotogramas, incluso para objetos transparentes en movimiento - Coincidencia estereoscópica: Mejora la precisión cuando se combina con sistemas de cámaras estereoscópicas - Seguimiento 3D: Ayuda a rastrear objetos a través del espacio de manera más fluida Se generaliza porque aprendió a manejar "información faltante" como una habilidad central, no como un caso marginal.
5/6 Prueba de Robot Real Montaron el sistema en un brazo robótico (Rokae XMate SR5) y le dieron dos tareas imposibles: Caja de almacenamiento transparente - Sensor de profundidad estándar: fracaso total (0 por ciento de éxito, no pudo detectarla) - LingBot Depth: tasa de éxito del 50 por ciento (vio la caja, planeó la agarre correctamente) Taza de acero reflectante - Sensor estándar: confundido por los reflejos - LingBot Depth: éxito consistente (reconstruyó una geometría plausible) Esto no son solo mejores números en un benchmark. Es un robot que realmente puede agarrar tu vaso de agua sin derribarlo.
676