Alle freaker ut over vibe-koding. I julestemning, la meg dele min angst for robotikkens ville vest. 3 leksjoner jeg lærte i 2025. 1. Maskinvaren ligger foran programvaren, men maskinvarens pålitelighet begrenser programvarens iterasjonshastighet sterkt. Vi har sett utsøkte ingeniørkunster som Optimus, e-Atlas, Figure, Neo, G1, osv. Vår beste AI har ikke presset all kraften ut av denne avanserte maskinvaren. Kroppen er mer kapabel enn det hjernen kan kommandere. Likevel krever det et helt operasjonsteam å passe på disse robotene. I motsetning til mennesker helbreder ikke roboter blåmerker. Overoppheting, ødelagte motorer og bisarre fastvareproblemer hjemsøker oss daglig. Feil er irreversible og nådeløse. Tålmodigheten min var det eneste som skalerte. 2. Benchmarking er fortsatt en episk katastrofe innen robotikk. LLM-vanlige folk trodde MMLU og SWE-Bench var sunn fornuft. Stopp for 🍺 robotikk. Ingen er enige om noe: maskinvareplattform, oppgavedefinisjon, vurderingskriterier, simulator eller virkelige oppsett. Alle er SOTA, per definisjon, på den referansepunktet de definerer i sanntid for hver nyhetsmelding. Alle plukker ut den fineste demoen av 100 forsøk. Vi må bli bedre som fagfelt i 2026 og slutte å behandle reproduserbarhet og vitenskapelig disiplin som annenrangs borgere. 3. VLM-basert VLA føles feil. VLA står for «vision-language-action»-modellen og har vært den dominerende tilnærmingen for robothjerner. Oppskriften er enkel: ta et forhåndstrent VLM-sjekkpunkt og transplanter en handlingsmodul oppå. Men hvis du tenker over det, er VLM-er hyperoptimalisert for bakkeklatringstester som visuell svar. Dette innebærer to problemer: (1) de fleste parametere i VLM-er er for språk og kunnskap, ikke for fysikk; (2) visuelle kodere er aktivt innstilt på å *forkaste* lavnivådetaljer, fordi Q&A kun krever overordnet forståelse. Men små detaljer betyr mye for fingerferdighet. Det er ingen grunn til at VLA sin ytelse skal skalere slik VLM-parametere skalerer. Fortrening er feiljustert. Videoverdensmodellen virker å være et mye bedre mål for forhåndsopplæring for robotpolitikk. Jeg satser stort på det.