La robotique continue de se heurter au même mur. L'apprentissage par renforcement pour une seule tâche fonctionne, mais... il ne s'adapte pas à des centaines de tâches ou de nouvelles incarnations. Ce nouvel article semble être un véritable pas vers la résolution de ce problème. L'équipe présente MMBench, un banc d'essai avec 200 tâches dans de nombreux domaines et robots, et Newt, un modèle de monde conditionné par le langage, entraîné en ligne sur les 200 tâches en même temps. L'idée simple derrière Newt : Le modèle apprend à partir de démonstrations pour obtenir les bons a priori. Il s'entraîne sur de nombreuses tâches grâce à une interaction en ligne. Il utilise le langage pour ancrer l'objectif. Il s'adapte rapidement lorsqu'une nouvelle tâche apparaît. Ce qui m'a marqué : ✅ Un modèle entraîné sur 200 tâches en même temps. ✅ Contrôle conditionné par le langage pour les états et les RGB. ✅ Meilleure efficacité des données que des bases solides. ✅ Contrôle en boucle ouverte solide. ✅ Adaptation rapide aux nouvelles tâches et incarnations. ✅ Publication complète de 200 points de contrôle, 4000 démonstrations, code et banc d'essai. C'est une bonne avancée vers un contrôle général au lieu d'un modèle par tâche. Si vous voulez l'article complet : Page du projet : ...