A robótica continua a bater na mesma parede. O RL de tarefa única funciona, mas... não escala para centenas de tarefas ou novas implementações. Este novo artigo parece ser um verdadeiro passo em direção a resolver isso. A equipe apresenta o MMBench, um benchmark com 200 tarefas em muitos domínios e robôs, e o Newt, um modelo de mundo condicionado por linguagem treinado online em todas as 200 tarefas ao mesmo tempo. A ideia simples por trás do Newt: O modelo aprende com demonstrações para obter os priors corretos Ele treina em muitas tarefas através da interação online Utiliza a linguagem para fundamentar o objetivo Adapta-se rapidamente quando uma nova tarefa aparece O que me chamou a atenção: ✅ Um modelo treinado em 200 tarefas ao mesmo tempo ✅ Controle condicionado por linguagem para estados e RGB ✅ Melhor eficiência de dados do que fortes referências ✅ Controle de loop aberto forte ✅ Adaptação rápida a novas tarefas e implementações ✅ Lançamento completo de 200 checkpoints, 4000 demonstrações, código e benchmark Este é um bom impulso em direção ao controle geral em vez de um modelo por tarefa. Se você quiser o artigo completo: Página do projeto: ...