Todos estão em pânico com a codificação de vibrações. No espírito das festas, permita-me compartilhar minha ansiedade sobre o faroeste da robótica. 3 lições que aprendi em 2025. 1. O hardware está à frente do software, mas a confiabilidade do hardware limita severamente a velocidade de iteração do software. Vimos artes de engenharia requintadas como Optimus, e-Atlas, Figure, Neo, G1, etc. Nossa melhor IA não extraiu todo o suco desse hardware de fronteira. O corpo é mais capaz do que o cérebro pode comandar. No entanto, cuidar desses robôs exige uma equipe inteira de operação. Ao contrário dos humanos, os robôs não se curam de contusões. Superaquecimento, motores quebrados, problemas bizarros de firmware nos assombram diariamente. Erros são irreversíveis e impiedosos. Minha paciência foi a única coisa que escalou. 2. O benchmarking ainda é um desastre épico na robótica. Os normies de LLM pensaram que MMLU e SWE-Bench são senso comum. Segure sua 🍺 para a robótica. Ninguém concorda em nada: plataforma de hardware, definição de tarefa, rubricas de pontuação, simulador ou configurações do mundo real. Todos são SOTA, por definição, no benchmark que definem no momento para cada anúncio de notícias. Todos escolhem a demonstração mais bonita de 100 tentativas. Precisamos fazer melhor como campo em 2026 e parar de tratar a reprodutibilidade e a disciplina científica como cidadãos de segunda classe. 3. VLM baseado em VLA parece errado. VLA significa "modelo visão-linguagem-ação" e tem sido a abordagem dominante para cérebros robóticos. A receita é simples: pegue um ponto de verificação VLM pré-treinado e enxerte um módulo de ação por cima. Mas se você pensar bem, os VLMs são hiper-otimizados para escalar benchmarks como perguntas e respostas visuais. Isso implica dois problemas: (1) a maioria dos parâmetros em VLMs é para linguagem e conhecimento, não para física; (2) os codificadores visuais são ativamente ajustados para *descartar* detalhes de baixo nível, porque Q&A só requer compreensão de alto nível. Mas detalhes minuciosos importam muito para a destreza. Não há razão para o desempenho do VLA escalar à medida que os parâmetros do VLM escalam. O pré-treinamento está desalinhado. O modelo de mundo em vídeo parece ser um objetivo de pré-treinamento muito melhor para a política robótica. Estou apostando alto nisso.