Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group acaba de abrir el código de LingBot-Depth.
Resuelve el desafío más difícil de percepción de profundidad en robótica: manejar objetos transparentes y reflectantes.
Los robots tienen "ojos" (sensores), pero suelen ser ciegos a cosas como vasos de vidrio o cuencos de metal brillantes. Literalmente, miran a través de ellos o se deslumbran por los reflejos.
LingBot-Depth soluciona esta ceguera, permitiendo a los robots "ver" e interactuar con lo invisible.
Resumen:
- 10M de muestras de entrenamiento (~3.1M curadas + 7M públicas)
- SOTA en benchmarks de completación de profundidad
- Funciona para profundidad monocular, estéreo, profundidad de video y seguimiento 3D
- Agarra con éxito objetos transparentes/reflectantes en pruebas reales de robots
Más detalles a continuación 👇 1/6
2/6
El mayor problema actualmente es que las cámaras robóticas estándar (RGB-D) funcionan proyectando luz para medir la distancia.
Pero cuando esa luz choca con una ventana de vidrio o un espejo, no rebota correctamente, pasa a través o se dispersa. El robot solo ve un "agujero negro" o ruido. Piensa que no hay nada allí, por lo que intenta atravesar la puerta de vidrio o aplastar la taza.
Solución: LingBot-Depth invierte esto. En lugar de filtrar esos "agujeros negros", los utiliza como una señal de aprendizaje. Enseña a la IA a usar el contexto circundante (la mesa, la sombra) para "llenar los espacios en blanco" y reconstruir el objeto invisible.

3/6
Tomaron un modelo de visión (codificador ViT) y lo entrenaron para jugar un juego de "completar los espacios" con mapas de profundidad rotos.
El modelo aprende a observar:
- Lo que ve la cámara RGB (colores, bordes, sombras)
- Los datos de profundidad parciales que SÍ están funcionando
- Los patrones de lo que falta
Luego reconstruye la escena completa, incluyendo las partes invisibles.
Lo ingenioso: no crearon máscaras falsas. Simplemente utilizaron las fallas naturales del sensor como datos de entrenamiento. Cada vez que la cámara no podía ver vidrio o metal, eso se convertía en una lección.

4/6
LingBot-Depth supera los métodos existentes en los estándares de profundidad (iBims, NYUv2) y funciona en múltiples tareas sin necesidad de reentrenamiento:
- Profundidad de video: Mantiene la profundidad consistente a través de los fotogramas, incluso para objetos transparentes en movimiento
- Coincidencia estereoscópica: Mejora la precisión cuando se combina con sistemas de cámaras estereoscópicas
- Seguimiento 3D: Ayuda a rastrear objetos a través del espacio de manera más fluida
Se generaliza porque aprendió a manejar "información faltante" como una habilidad central, no como un caso marginal.

5/6
Prueba de Robot Real
Montaron el sistema en un brazo robótico (Rokae XMate SR5) y le dieron dos tareas imposibles:
Caja de almacenamiento transparente
- Sensor de profundidad estándar: fracaso total (0 por ciento de éxito, no pudo detectarla)
- LingBot Depth: tasa de éxito del 50 por ciento (vio la caja, planeó la agarre correctamente)
Taza de acero reflectante
- Sensor estándar: confundido por los reflejos
- LingBot Depth: éxito consistente (reconstruyó una geometría plausible)
Esto no son solo mejores números en un benchmark.
Es un robot que realmente puede agarrar tu vaso de agua sin derribarlo.

676
Parte superior
Clasificación
Favoritos
