O Ant Group acaba de abrir o código do LingBot-Depth. Ele resolve o mais difícil desafio de percepção de profundidade na robótica: lidar com objetos transparentes e reflexivos. Os robôs têm "olhos" (sensores), mas geralmente são cegos a coisas como copos de vidro ou tigelas de metal brilhante. Eles literalmente olham através deles ou ficam ofuscados por reflexos. O LingBot-Depth corrige essa cegueira, permitindo que os robôs "vejam" e interajam com o invisível. Resumo: - 10M de amostras de treinamento (~3.1M curadas + 7M públicas) - SOTA em benchmarks de conclusão de profundidade - Funciona para profundidade monocular, estéreo, profundidade de vídeo e rastreamento 3D - Capta com sucesso objetos transparentes/reflexivos em testes reais de robôs Mais detalhes abaixo 👇 1/6
2/6 O maior problema atualmente é que as câmaras de robô padrão (RGB-D) funcionam projetando luz para medir a distância. Mas quando essa luz atinge uma janela de vidro ou um espelho, não retorna corretamente, passa através ou se dispersa. O robô vê apenas um "buraco negro" ou ruído. Ele pensa que não há nada lá, então tenta atravessar a porta de vidro ou esmagar o copo. Solução: LingBot-Depth inverte isso. Em vez de filtrar esses "buracos negros", usa-os como um sinal de aprendizagem. Ensina a IA a usar o contexto circundante (a mesa, a sombra) para "preencher as lacunas" e reconstruir o objeto invisível.
3/6 Eles pegaram um modelo de visão (codificador ViT) e o treinaram para jogar um jogo de "preencher os espaços em branco" com mapas de profundidade quebrados. O modelo aprende a olhar para: - O que a câmera RGB vê (cores, bordas, sombras) - Os dados de profundidade parciais que ESTÃO funcionando - Os padrões do que está faltando Então, ele reconstrói a cena completa, incluindo as partes invisíveis. A parte inteligente: eles não criaram máscaras falsas. Eles apenas usaram as falhas naturais do sensor como dados de treinamento. Toda vez que a câmera falhava em ver vidro ou metal, isso se tornava uma lição.
4/6 O LingBot-Depth supera os métodos existentes em benchmarks de profundidade padrão (iBims, NYUv2) e funciona em várias tarefas sem necessidade de re-treinamento: - Profundidade de vídeo: Mantém a profundidade consistente entre os quadros, mesmo para objetos transparentes em movimento - Correspondência estéreo: Melhora a precisão quando combinado com sistemas de câmaras estéreo - Rastreamento 3D: Ajuda a rastrear objetos através do espaço de forma mais suave Ele generaliza porque aprendeu a lidar com "informação ausente" como uma habilidade central, e não como um caso marginal.
5/6 Teste de Robô Real Montaram o sistema em um braço robótico (Rokae XMate SR5) e deram-lhe duas tarefas impossíveis: Caixa de armazenamento transparente - Sensor de profundidade padrão: falha completa (0 por cento de sucesso, não conseguiu nem detectá-la) - LingBot Depth: taxa de sucesso de 50 por cento (viu a caixa, planejou a apreensão corretamente) Copo de aço refletivo - Sensor padrão: confundido por reflexos - LingBot Depth: sucesso consistente (reconstruiu uma geometria plausível) Isto não são apenas números melhores em um benchmark. É um robô que pode realmente pegar seu copo de água sem derrubá-lo.
650