Tout le monde s'inquiète à propos du codage de l'ambiance. Dans l'esprit des fêtes, permettez-moi de partager mon anxiété sur le far west de la robotique. 3 leçons que j'ai apprises en 2025. 1. Le matériel est en avance sur le logiciel, mais la fiabilité du matériel limite sévèrement la vitesse d'itération du logiciel. Nous avons vu des arts d'ingénierie exquis comme Optimus, e-Atlas, Figure, Neo, G1, etc. Notre meilleure IA n'a pas extrait tout le jus de ce matériel de pointe. Le corps est plus capable que ce que le cerveau peut commander. Pourtant, garder ces robots nécessite une équipe opérationnelle entière. Contrairement aux humains, les robots ne guérissent pas des contusions. La surchauffe, les moteurs cassés, les problèmes de firmware bizarres nous hantent quotidiennement. Les erreurs sont irréversibles et impitoyables. Ma patience était la seule chose qui a évolué. 2. Le benchmarking est toujours un désastre épique dans la robotique. Les normies LLM pensaient que MMLU et SWE-Bench étaient du bon sens. Gardez votre 🍺 pour la robotique. Personne n'est d'accord sur quoi que ce soit : plateforme matérielle, définition de la tâche, rubriques de notation, simulateur ou configurations du monde réel. Tout le monde est SOTA, par définition, sur le benchmark qu'il définit à la volée pour chaque annonce. Chacun choisit la plus belle démo parmi 100 essais. Nous devons faire mieux en tant que domaine en 2026 et arrêter de traiter la reproductibilité et la discipline scientifique comme des citoyens de seconde classe. 3. VLM basé sur VLA semble erroné. VLA signifie "modèle vision-langage-action" et a été l'approche dominante pour les cerveaux de robots. La recette est simple : prendre un point de contrôle VLM pré-entraîné et greffer un module d'action par-dessus. Mais si vous y réfléchissez, les VLM sont hyper-optimisés pour grimper des benchmarks comme le questionnement visuel. Cela implique deux problèmes : (1) la plupart des paramètres dans les VLM sont pour le langage et la connaissance, pas pour la physique ; (2) les encodeurs visuels sont activement réglés pour *écarter* les détails de bas niveau, car le Q&A nécessite seulement une compréhension de haut niveau. Mais les détails minutieux comptent beaucoup pour la dextérité. Il n'y a aucune raison pour que la performance de VLA évolue à mesure que les paramètres de VLM évoluent. Le pré-entraînement est mal aligné. Le modèle de monde vidéo semble être un objectif de pré-entraînement beaucoup mieux adapté pour la politique robotique. Je parie gros là-dessus.