Robótica continua batendo na mesma parede. O RL de uma única tarefa funciona, mas... Não escala para centenas de tarefas ou novas incorporações. Este novo artigo parece um verdadeiro passo para corrigir isso. A equipe apresenta o MMBench, um benchmark com 200 tarefas em vários domínios e robôs, e o Newt, um modelo de mundo condicionado à linguagem treinado online em todas as 200 tarefas ao mesmo tempo. A ideia simples por trás de Newt: O modelo aprende com demos para obter os priors corretos Ele treina em várias tarefas por meio da interação online Ele usa a linguagem para fundamentar o objetivo Ele se adapta rápido quando uma nova tarefa aparece O que me chamou atenção: ✅ Um modelo treinado em 200 tarefas ao mesmo tempo ✅ Controle condicionado à linguagem para ambos os estados e RGB ✅ Melhor eficiência de dados do que bases fortes ✅ Controle forte em malha aberta ✅ Adaptação rápida a novas tarefas e incorporações ✅ Versão completa de 200 checkpoints, 4000 demos, código e benchmark Isso é um bom impulso para o controle geral em vez de um modelo por tarefa. Se quiser o artigo completo: Página do projeto: —-...