Am antrenat un umanoid cu mâini dextere cu 22-DoF să asambleze modele de mașini, să manevreze seringi, să sorteze cărți de poker, să plieze/ruleze cămăși, toate învățate în principal din 20.000+ ore de video uman egocentric fără niciun robot implicat. Oamenii sunt cea mai scalabilă întruchipare de pe planetă. Am descoperit o lege de scalare log-liniară aproape perfectă (R² = 0,998) între volumul video uman și pierderea din predicția acțiunii, iar această pierdere prezice direct rata de succes a roboților reali. Roboții umanoizi vor fi scopul final, pentru că au un factor de formă practic, cu o diferență minimă de întrupare față de oameni. Să-i spunem Lecția Amară a hardware-ului robotic: similaritatea cinematică ne permite pur și simplu să redirecționăm mișcarea degetelor umane către articulațiile mâinilor roboților agile. Fără embedding-uri învățate, fără algoritmi de transfer sofisticați. Mișcarea relativă a încheieturii + acțiunile degetelor 22-DoF redirecționate servesc ca un spațiu unificat de acțiune care se desfășoară de la pre-antrenament până la execuția robotului. Rețeta noastră se numește "EgoScale": - Înainte de antrenament GR00T N1.5 pe 20.000 de ore de video uman, în mijlocul trenului cu doar 4 ore (!) de date de redare a roboților cu mâinile Sharpa. 54% câștiguri față de antrenamentul de la zero în 5 sarcini extrem de dextere. - Rezultatul cel mai surprinzător: o *unică* demonstrație teleop este suficientă pentru a învăța o sarcină nemaivăzută până acum. Rețeta noastră permite o eficiență extremă a datelor. - Deși pre-antrenăm în spațiul articulației mâinii 22-DoF, politica se transferă la un Unitree G1 cu 7-DoF cu mâini tri-degete. Câștiguri de 30%+ față de antrenament doar pe date G1. Drumul scalabil către dexteritatea roboților nu a fost niciodată mai mult roboți. Întotdeauna am fost noi. Detalii aprofundate în firul de discuție: