Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um novo modelo de recompensa chamado SARM — > Modelagem de Recompensa Consciente de Estágio para manipulação de robôs no longo horizonte já está no LeRobot! 🤗
Manipulação de longo horizonte e rica em contatos (pense em dobrar uma camiseta) é bagunçada. Demonstrações naturalmente incluem hesitações, correções e qualidade variável. A Clonagem Clássica de Comportamento (BC) trata cada quadro de forma igual, o SARM adota uma abordagem mais inteligente.
🔎 Como funciona?
O SARM utiliza um modelo de recompensa baseado em vídeo para prever:
• Estágio atual da tarefa
• progresso detalhado dentro dessa etapa (0 → 1)
Isso possibilita a Clonagem de Comportamento Alinhada à Recompensa (RA-BC) ao reavaliar dados com base na melhoria do progresso, permitindo que o modelo distinga trajetórias que avançam daquelas que travam.
Imagem à esquerda: lançamento bem-sucedido, progresso aprendido aumentando suavemente 0 → 1
Imagem à direita: lançamento malsucedido


👉 Disponível agora no site LeRobot: Projeto em Papel
✨ Créditos aos autores originais por esta obra incrível: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
899
Melhores
Classificação
Favoritos
