Trénovali jsme humanoida s obratnýma rukama 22 stupňů F, aby skládal modely aut, obsluhoval stříkačky, třídil pokerové karty, skládal a roloval košile – to vše jsme se naučili především z 20 000+ hodin egocentrického lidského videa bez robota v smyčce. Lidé jsou nejškálovatelnějším ztělesněním na planetě. Objevili jsme téměř dokonalý log-lineární škálovací zákon (R² = 0,998) mezi lidským objemem videa a ztrátou při predikci akcí, a tato ztráta přímo předpovídá úspěšnost reálných robotů. Humanoidní roboti budou konečnou hrou, protože jsou praktickým tvarem s minimálním rozdílem v ztělesnění oproti lidem. Nazvěme to Hořkou lekcí robotického hardwaru: kinematická podobnost nám umožňuje jednoduše přesměrovat pohyb lidských prstů na obratné robotické klouby. Žádné naučené embeddingy, žádné složité přenosové algoritmy nepotřebují. Relativní pohyb zápěstí + přesměrované pohyby prstů 22-hloubky slouží jako jednotný akční prostor, který pokračuje od předtréninku až po robotické provedení. Náš recept se jmenuje "EgoScale": - Předtrénink GR00T N1.5 na 20 000 hodinách lidského videa, během tréninku s pouhými 4 hodinami (!) dat o robotické hře pomocí Sharpa rukou. 54 % zisku oproti tréninku od začátku v 5 vysoce obratných úkolech. - Nejpřekvapivější výsledek: *jediná* teleop ukázka stačí k naučení dosud neviděného úkolu. Náš recept umožňuje extrémní efektivitu dat. - Ačkoli předtrénujeme v prostoru kloubů rukou 22 stupňů F, politika se přenáší na Unitree G1 s trojprstými rukama 7 stupňů hloubky. Zisk 30%+ oproti tréninku pouze na G1 datech. Cesta k robotické obratnosti byla škálovatelná už nikdy nebyla s roboty. Vždycky jsme to byli my. Hloubkové ponoření do vlákna: