Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Är din robotpolicy World-Model trasig?
Jim på NVIDIA satsar stort på det.
Han hävdar att VLM-baserade VLLA är fundamentalt feljusterade för robotik eftersom de prioriterar högnivåsemantik framför de detaljerade fysiska detaljer som krävs för fingerfärdighet.
'En videovärldsmodell verkar vara ett mycket bättre förträningsmål för robotpolicy.'
Vi kan förvänta oss en stor push från NVIDIA i denna riktning i år.


29 dec. 2025
Alla är upprörda över vibe-kodning. I julstämning, låt mig dela med mig av min oro över robotikens vilda västern. 3 lärdomar jag lärde mig 2025.
1. Hårdvaran ligger före mjukvaran, men hårdvarans tillförlitlighet begränsar kraftigt mjukvaruiterationens hastighet.
Vi har sett utsökta ingenjörskonster som Optimus, e-Atlas, Figure, Neo, G1, etc. Vår bästa AI har inte pressat ut all kraft ur denna gränshårdvara. Kroppen är mer kapabel än vad hjärnan kan styra. Men att passa dessa robotar kräver ett helt operationsteam. Till skillnad från människor läker inte robotar från blåmärken. Överhettning, trasiga motorer och bisarra firmwareproblem hemsöker oss dagligen. Misstag är oåterkalleliga och oförlåtande.
Mitt tålamod var det enda som kunde skala.
2. Benchmarking är fortfarande en episk katastrof inom robotik.
LLM-normies trodde att MMLU och SWE-Bench var sunt förnuft. Håll dig 🍺 för robotik. Ingen är överens om någonting: hårdvaruplattform, uppgiftsdefinition, poängmatriser, simulator eller verkliga upplägg. Alla är SOTA, per definition, på det riktmärke de sätter i realtid för varje nyhetsmeddelande. Alla väljer ut den snyggaste demon av 100 försök.
Vi måste bli bättre som fält 2026 och sluta behandla reproducerbarhet och vetenskaplig disciplin som andra klassens medborgare.
3. VLA-baserat VLA känns fel.
VLA står för "vision-language-action"-modellen och har varit den dominerande metoden för robothjärnor. Receptet är enkelt: ta en förtränad VLM-checkpoint och lägg en åtgärdsmodul ovanpå. Men om du tänker efter är VLM:er hyperoptimerade för att klara sig i backklättring som visuell frågebesvarande. Detta innebär två problem: (1) de flesta parametrar i VLM gäller språk och kunskap, inte fysik; (2) visuella kodare är aktivt inställda på att *kassera* lågnivådetaljer, eftersom Q&A endast kräver förståelse på hög nivå. Men små detaljer är mycket viktiga för fingerfärdighet.
Det finns ingen anledning till att VLA:s prestanda ska skalas som VLM-parametrar. Förträningen är feljusterad. Videovärldens modell verkar vara ett mycket bättre mål för förträning för robotpolicy. Jag satsar stort på det.

1X:s världsmodellbaserade policy följer en liknande metod och omvandlar videogenerering till autonoma robothandlingar.
- AI-genererad video till vänster
- Verklig robotfunktion till höger
40
Topp
Rankning
Favoriter
