Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Robótica continua batendo na mesma parede.
O RL de uma única tarefa funciona, mas... Não escala para centenas de tarefas ou novas incorporações.
Este novo artigo parece um verdadeiro passo para corrigir isso.
A equipe apresenta o MMBench, um benchmark com 200 tarefas em vários domínios e robôs, e o Newt, um modelo de mundo condicionado à linguagem treinado online em todas as 200 tarefas ao mesmo tempo.
A ideia simples por trás de Newt:
O modelo aprende com demos para obter os priors corretos
Ele treina em várias tarefas por meio da interação online
Ele usa a linguagem para fundamentar o objetivo
Ele se adapta rápido quando uma nova tarefa aparece
O que me chamou atenção:
✅ Um modelo treinado em 200 tarefas ao mesmo tempo
✅ Controle condicionado à linguagem para ambos os estados e RGB
✅ Melhor eficiência de dados do que bases fortes
✅ Controle forte em malha aberta
✅ Adaptação rápida a novas tarefas e incorporações
✅ Versão completa de 200 checkpoints, 4000 demos, código e benchmark
Isso é um bom impulso para o controle geral em vez de um modelo por tarefa.
Se quiser o artigo completo:
Página do projeto:
—-...
Melhores
Classificação
Favoritos

