Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Ant Group acaba de abrir o código do LingBot-Depth.
Ele resolve o mais difícil desafio de percepção de profundidade na robótica: lidar com objetos transparentes e reflexivos.
Os robôs têm "olhos" (sensores), mas geralmente são cegos a coisas como copos de vidro ou tigelas de metal brilhante. Eles literalmente olham através deles ou ficam ofuscados por reflexos.
O LingBot-Depth corrige essa cegueira, permitindo que os robôs "vejam" e interajam com o invisível.
Resumo:
- 10M de amostras de treinamento (~3.1M curadas + 7M públicas)
- SOTA em benchmarks de conclusão de profundidade
- Funciona para profundidade monocular, estéreo, profundidade de vídeo e rastreamento 3D
- Capta com sucesso objetos transparentes/reflexivos em testes reais de robôs
Mais detalhes abaixo 👇 1/6
2/6
O maior problema atualmente é que as câmaras de robô padrão (RGB-D) funcionam projetando luz para medir a distância.
Mas quando essa luz atinge uma janela de vidro ou um espelho, não retorna corretamente, passa através ou se dispersa. O robô vê apenas um "buraco negro" ou ruído. Ele pensa que não há nada lá, então tenta atravessar a porta de vidro ou esmagar o copo.
Solução: LingBot-Depth inverte isso. Em vez de filtrar esses "buracos negros", usa-os como um sinal de aprendizagem. Ensina a IA a usar o contexto circundante (a mesa, a sombra) para "preencher as lacunas" e reconstruir o objeto invisível.

3/6
Eles pegaram um modelo de visão (codificador ViT) e o treinaram para jogar um jogo de "preencher os espaços em branco" com mapas de profundidade quebrados.
O modelo aprende a olhar para:
- O que a câmera RGB vê (cores, bordas, sombras)
- Os dados de profundidade parciais que ESTÃO funcionando
- Os padrões do que está faltando
Então, ele reconstrói a cena completa, incluindo as partes invisíveis.
A parte inteligente: eles não criaram máscaras falsas. Eles apenas usaram as falhas naturais do sensor como dados de treinamento. Toda vez que a câmera falhava em ver vidro ou metal, isso se tornava uma lição.

4/6
O LingBot-Depth supera os métodos existentes em benchmarks de profundidade padrão (iBims, NYUv2) e funciona em várias tarefas sem necessidade de re-treinamento:
- Profundidade de vídeo: Mantém a profundidade consistente entre os quadros, mesmo para objetos transparentes em movimento
- Correspondência estéreo: Melhora a precisão quando combinado com sistemas de câmaras estéreo
- Rastreamento 3D: Ajuda a rastrear objetos através do espaço de forma mais suave
Ele generaliza porque aprendeu a lidar com "informação ausente" como uma habilidade central, e não como um caso marginal.

5/6
Teste de Robô Real
Montaram o sistema em um braço robótico (Rokae XMate SR5) e deram-lhe duas tarefas impossíveis:
Caixa de armazenamento transparente
- Sensor de profundidade padrão: falha completa (0 por cento de sucesso, não conseguiu nem detectá-la)
- LingBot Depth: taxa de sucesso de 50 por cento (viu a caixa, planejou a apreensão corretamente)
Copo de aço refletivo
- Sensor padrão: confundido por reflexos
- LingBot Depth: sucesso consistente (reconstruiu uma geometria plausível)
Isto não são apenas números melhores em um benchmark.
É um robô que pode realmente pegar seu copo de água sem derrubá-lo.

650
Top
Classificação
Favoritos
