Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo mundo está surtando com vibe coding. No espírito natalino, permita-me compartilhar minha ansiedade sobre o velho oeste da robótica. 3 lições que aprendi em 2025.
1. O hardware está à frente do software, mas a confiabilidade do hardware limita severamente a velocidade de iteração do software.
Já vimos artes de engenharia requintadas como Optimus, e-Atlas, Figure, Neo, G1, etc. Nossa melhor IA não espremereu todo esse hardware de fronteira. O corpo é mais capaz do que o cérebro pode comandar. Ainda assim, cuidar desses robôs exige uma equipe operacional inteira. Ao contrário dos humanos, robôs não se recuperam de hematomas. Superaquecimento, motores quebrados, problemas bizarros de firmware nos assombram diariamente. Erros são irreversíveis e implacáveis.
Minha paciência foi a única coisa que fazia diferença.
2. O benchmarking ainda é um desastre épico na robótica.
Os normais de LLM achavam MMLU e SWE-Bench senso comum. Espere 🍺 para robótica. Ninguém concorda em nada: plataforma de hardware, definição de tarefas, critérios de avaliação, simulador ou configurações do mundo real. Todos são SOTA, por definição, no parâmetro que definem em tempo real para cada anúncio de notícias. Todo mundo escolhe a dedo a demo com a aparência mais bonita entre 100 tentativas.
Precisamos melhorar como área em 2026 e parar de tratar a reprodutibilidade e a disciplina científica como cidadãos de segunda classe.
3. VLA baseado em VLM parece errado.
VLA significa modelo "visão-linguagem-ação" e tem sido a abordagem dominante para cérebros robóticos. A receita é simples: pegue um checkpoint VLM pré-treinado e enxerte um módulo de ação por cima. Mas se você pensar bem, VLMs são hiper-otimizados para subir colinas como a resposta visual a perguntas. Isso implica dois problemas: (1) a maioria dos parâmetros em VLMs é para linguagem e conhecimento, não para física; (2) codificadores visuais são ativamente ajustados para *descartar* detalhes de baixo nível, porque Q&A requer apenas compreensão de alto nível. Mas detalhes minuciosos importam muito para a destreza.
Não há razão para o desempenho do VLA escalar conforme os parâmetros do VLM escalam. O pré-treinamento está desalinhado. O modelo de mundo em vídeo parece ser um objetivo muito melhor de pré-treinamento para políticas de robôs. Estou apostando alto nisso.

Melhores
Classificação
Favoritos
