Tutti sono in preda al panico per il vibe coding. Nello spirito delle festività, permettetemi di condividere la mia ansia sul far west della robotica. 3 lezioni che ho imparato nel 2025. 1. L'hardware è avanti rispetto al software, ma l'affidabilità dell'hardware limita gravemente la velocità di iterazione del software. Abbiamo visto arti ingegneristiche squisite come Optimus, e-Atlas, Figure, Neo, G1, ecc. Il nostro miglior AI non ha spremuto tutto il succo da questi hardware di frontiera. Il corpo è più capace di quanto la mente possa comandare. Eppure, prendersi cura di questi robot richiede un intero team operativo. A differenza degli esseri umani, i robot non guariscono dai lividi. Surriscaldamento, motori rotti, problemi di firmware bizzarri ci perseguitano quotidianamente. Gli errori sono irreversibili e implacabili. La mia pazienza era l'unica cosa che si è scalata. 2. Il benchmarking è ancora un disastro epico nella robotica. I normies LLM pensavano che MMLU e SWE-Bench fossero senso comune. Tenete il vostro 🍺 per la robotica. Nessuno è d'accordo su nulla: piattaforma hardware, definizione del compito, rubriche di punteggio, simulatori o configurazioni del mondo reale. Tutti sono SOTA, per definizione, sul benchmark che definiscono al volo per ogni annuncio di notizie. Tutti scelgono il demo più bello tra 100 tentativi. Dobbiamo fare meglio come campo nel 2026 e smettere di trattare la riproducibilità e la disciplina scientifica come cittadini di seconda classe. 3. VLM-based VLA sembra sbagliato. VLA sta per "modello visione-linguaggio-azione" ed è stato l'approccio dominante per i cervelli dei robot. La ricetta è semplice: prendi un checkpoint VLM pre-addestrato e innesta un modulo d'azione sopra. Ma se ci pensi, i VLM sono iper-ottimizzati per scalare benchmark come il question answering visivo. Questo implica due problemi: (1) la maggior parte dei parametri nei VLM sono per il linguaggio e la conoscenza, non per la fisica; (2) gli encoder visivi sono attivamente sintonizzati per *scartare* i dettagli a basso livello, perché il Q&A richiede solo una comprensione ad alto livello. Ma i dettagli minuti contano molto per la destrezza. Non c'è motivo affinché le prestazioni di VLA scalino con l'aumento dei parametri VLM. L'addestramento preliminare è disallineato. Il modello del mondo video sembra essere un obiettivo di pre-addestramento molto migliore per la politica robotica. Sto scommettendo forte su di esso.