Sua política de robôs é um Modelo Mundial de Pilhas? Jim Fan, da NVIDIA, está apostando alto nisso. Ele argumenta que VLAs baseados em VLM são fundamentalmente desalinhados para robótica porque priorizam semântica de alto nível em detrimento dos detalhes físicos granulares necessários para a destreza. 'Um modelo de mundo em vídeo parece ser um objetivo de pré-treinamento muito melhor para a política de robôs.' Podemos esperar um grande impulso da NVIDIA nessa direção este ano.
Jim Fan
Jim Fan29 de dez. de 2025
Todo mundo está surtando com vibe coding. No espírito natalino, permita-me compartilhar minha ansiedade sobre o velho oeste da robótica. 3 lições que aprendi em 2025. 1. O hardware está à frente do software, mas a confiabilidade do hardware limita severamente a velocidade de iteração do software. Já vimos artes de engenharia requintadas como Optimus, e-Atlas, Figure, Neo, G1, etc. Nossa melhor IA não espremereu todo esse hardware de fronteira. O corpo é mais capaz do que o cérebro pode comandar. Ainda assim, cuidar desses robôs exige uma equipe operacional inteira. Ao contrário dos humanos, robôs não se recuperam de hematomas. Superaquecimento, motores quebrados, problemas bizarros de firmware nos assombram diariamente. Erros são irreversíveis e implacáveis. Minha paciência foi a única coisa que fazia diferença. 2. O benchmarking ainda é um desastre épico na robótica. Os normais de LLM achavam MMLU e SWE-Bench senso comum. Espere 🍺 para robótica. Ninguém concorda em nada: plataforma de hardware, definição de tarefas, critérios de avaliação, simulador ou configurações do mundo real. Todos são SOTA, por definição, no parâmetro que definem em tempo real para cada anúncio de notícias. Todo mundo escolhe a dedo a demo com a aparência mais bonita entre 100 tentativas. Precisamos melhorar como área em 2026 e parar de tratar a reprodutibilidade e a disciplina científica como cidadãos de segunda classe. 3. VLA baseado em VLM parece errado. VLA significa modelo "visão-linguagem-ação" e tem sido a abordagem dominante para cérebros robóticos. A receita é simples: pegue um checkpoint VLM pré-treinado e enxerte um módulo de ação por cima. Mas se você pensar bem, VLMs são hiper-otimizados para subir colinas como a resposta visual a perguntas. Isso implica dois problemas: (1) a maioria dos parâmetros em VLMs é para linguagem e conhecimento, não para física; (2) codificadores visuais são ativamente ajustados para *descartar* detalhes de baixo nível, porque Q&A requer apenas compreensão de alto nível. Mas detalhes minuciosos importam muito para a destreza. Não há razão para o desempenho do VLA escalar conforme os parâmetros do VLM escalam. O pré-treinamento está desalinhado. O modelo de mundo em vídeo parece ser um objetivo muito melhor de pré-treinamento para políticas de robôs. Estou apostando alto nisso.
A política baseada em modelos de mundo da 1X segue uma abordagem semelhante, transformando a geração de vídeo em ações autônomas de robôs. - Vídeo gerado por IA à esquerda - Ação real de robô à direita
46