Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A robótica continua a bater na mesma parede.
O RL de tarefa única funciona, mas... não escala para centenas de tarefas ou novas implementações.
Este novo artigo parece ser um verdadeiro passo em direção a resolver isso.
A equipe apresenta o MMBench, um benchmark com 200 tarefas em muitos domínios e robôs, e o Newt, um modelo de mundo condicionado por linguagem treinado online em todas as 200 tarefas ao mesmo tempo.
A ideia simples por trás do Newt:
O modelo aprende com demonstrações para obter os priors corretos
Ele treina em muitas tarefas através da interação online
Utiliza a linguagem para fundamentar o objetivo
Adapta-se rapidamente quando uma nova tarefa aparece
O que me chamou a atenção:
✅ Um modelo treinado em 200 tarefas ao mesmo tempo
✅ Controle condicionado por linguagem para estados e RGB
✅ Melhor eficiência de dados do que fortes referências
✅ Controle de loop aberto forte
✅ Adaptação rápida a novas tarefas e implementações
✅ Lançamento completo de 200 checkpoints, 4000 demonstrações, código e benchmark
Este é um bom impulso em direção ao controle geral em vez de um modelo por tarefa.
Se você quiser o artigo completo:
Página do projeto:
...
Top
Classificação
Favoritos

