Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nouveau modèle de récompense appelé SARM —> Modélisation de Récompense Sensible à l'Étape pour la manipulation robotique à long terme est maintenant dans LeRobot ! 🤗
La manipulation à long terme, riche en contacts (pensez à plier un T-shirt) est désordonnée. Les démonstrations incluent naturellement des hésitations, des corrections et une qualité variable. Le Clonage de Comportement Classique (BC) traite chaque image de manière égale, SARM adopte une approche plus intelligente.
🔎 Comment ça fonctionne ?
SARM utilise un modèle de récompense basé sur la vidéo pour prédire :
• l'étape actuelle de la tâche
• le progrès détaillé au sein de cette étape (0 → 1)
Cela permet le Clonage de Comportement Aligné sur la Récompense (RA-BC) en réévaluant les données en fonction de l'amélioration du progrès, permettant au modèle de distinguer les trajectoires qui avancent de celles qui stagnent.
Image de gauche : déploiement réussi, progrès appris augmentant progressivement de 0 → 1
Image de droite : déploiement infructueux


👉 Disponible maintenant dans LeRobot : Paper Site web du projet
✨ Crédits aux auteurs originaux pour ce travail incroyable : Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
898
Meilleurs
Classement
Favoris
