Treinámos um humanoide com mãos destrosas de 22 graus de liberdade para montar modelos de carros, operar seringas, classificar cartas de poker, dobrar/enrolar camisetas, tudo aprendido principalmente a partir de mais de 20.000 horas de vídeo egocêntrico humano sem robô no processo. Os humanos são a manifestação mais escalável do planeta. Descobrimos uma lei de escalonamento log-linear quase perfeita (R² = 0.998) entre o volume de vídeo humano e a perda de previsão de ação, e essa perda prevê diretamente a taxa de sucesso do robô real. Os robôs humanoides serão o objetivo final, porque são a forma prática com a mínima lacuna de manifestação em relação aos humanos. Chame isso de a Lição Amarga do hardware robótico: a similaridade cinemática permite-nos simplesmente redirecionar o movimento dos dedos humanos para as articulações das mãos destrosas do robô. Nenhum embedding aprendido, nenhum algoritmo de transferência sofisticado necessário. O movimento relativo do pulso + ações de dedos redirecionadas de 22 graus de liberdade servem como um espaço de ação unificado que se mantém desde o pré-treinamento até a execução do robô. A nossa receita chama-se "EgoScale": - Pré-treinar o GR00T N1.5 em 20K horas de vídeo humano, meio-treinar com apenas 4 horas (!) de dados de jogo do robô com as mãos Sharpa. Ganhos de 54% em relação ao treinamento do zero em 5 tarefas altamente destrosas. - O resultado mais surpreendente: uma *única* demonstração de teleoperação é suficiente para aprender uma tarefa nunca antes vista. A nossa receita permite uma eficiência extrema de dados. - Embora pré-treinemos no espaço das articulações das mãos de 22 graus de liberdade, a política transfere-se para um Unitree G1 com mãos tri-dedo de 7 graus de liberdade. Ganhos de mais de 30% apenas com o treinamento em dados do G1. O caminho escalável para a destreza robótica nunca foram mais robôs. Sempre fomos nós. Mergulhos profundos no tópico: