Aujourd'hui, nous sommes rejoints par @rdn_nikita, co-fondateur et PDG de @FlexionRobotics pour discuter de l'écart entre les capacités robotiques actuelles et ce qui est nécessaire pour déployer des robots entièrement autonomes dans le monde réel. Nikita explique comment l'apprentissage par renforcement et la simulation ont permis des progrès rapides dans la locomotion des robots—et pourquoi la locomotion est encore loin d'être "résolue". Nous plongeons dans l'écart sim2real, et comment l'ajout d'entrées visuelles introduit du bruit et complique considérablement le transfert sim-à-réal. Nous explorons également le débat entre les modèles de bout en bout et les approches modulaires, et pourquoi séparer la locomotion, la planification et la sémantique reste une approche pragmatique aujourd'hui. Nikita introduit également le concept de "réel-à-sim", qui utilise des données du monde réel pour affiner les paramètres de simulation pour un entraînement de plus haute fidélité, discute de la manière dont l'apprentissage par renforcement, l'apprentissage par imitation et les données de téléopération sont combinés pour former des politiques robustes pour les robots quadrupèdes et humanoïdes, et présente l'approche hiérarchique de Flexion qui utilise des modèles Vision-Language pré-entraînés (VLMs) pour l'orchestration de tâches de haut niveau avec des modèles Vision-Language-Action (VLA) et des trackers de corps entier de bas niveau. Enfin, Nikita partage les coulisses des démonstrations de robots humanoïdes, son avis sur l'apprentissage par renforcement en simulation par rapport au monde réel, les nuances de l'ajustement des récompenses, et offre des conseils pratiques pour les chercheurs et praticiens souhaitant se lancer dans la robotique aujourd'hui. 🗒️ Pour la liste complète des ressources pour cet épisode, visitez la page des notes de l'émission : 📖 CHAPITRES =============================== 00:00 - Introduction 04:07 - La locomotion des robots est-elle résolue ? 06:04 - Écart sim-à-réal 08:58 - Ajouter de la sémantique aux politiques 09:42 - Architectures modulaires vs de bout en bout 10:29 - Modèle de planification 12:21 - Adapter les techniques d'apprentissage par renforcement des quadrupèdes aux humanoïdes 15:39 - Derrière les démonstrations de robots 18:09 - Robots humanoïdes dans des environnements domestiques 22:03 - Approche d'entraînement 23:56 - Modèles VLA 27:59 - Combler l'écart sim-à-réal 32:55 - Orchestration de tâches utilisant des VLMs 36:38 - Utilisation d'outils 38:10 - Hiérarchie des modèles 43:37 - Simulateur contre environnement de simulation 44:57 - Combinaison de l'apprentissage par imitation et de l'apprentissage par renforcement 46:42 - Apprentissage par renforcement dans le monde réel contre apprentissage par renforcement en simulation 52:58 - Ajustement des récompenses et fonctions de valeur en robotique 56:38 - Prédictions 1:00:10 - Humanoïdes, quadrupèdes et plateformes à roues 1:02:45 - Conseils, kits de robots recommandés et communauté pla