Mais pré-treinamento melhora o desempenho do robô real GEN-0 (através de avaliações A/B cegas com rollouts de loop fechado). As melhorias são significativas no regime de poucos dados, mas os melhores modelos prosperam com pré-treinamento e amplo pós-treinamento. Veja o adendo do blog: