Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nou model de recompensă numit SARM — > Modelare a Recompenselor Conștiente de Nivel pentru manipularea roboților pe termen lung este acum în LeRobot! 🤗
Manipularea pe termen lung, bogată în contacte (gândește-te la plierea unui tricou) este dezordonată. Demonstrațiile includ, în mod natural, ezitări, corecții și variabile de calitate. Clonarea Comportamentală Clasică (BC) tratează fiecare cadru în mod egal, SARM adoptă o abordare mai inteligentă.
🔎 Cum funcționează?
SARM folosește un model de recompensă bazat pe video pentru a prezice:
• etapa actuală a sarcinii
• progres detaliat în acea etapă (0 → 1)
Aceasta permite Clonarea Comportamentului Aliniat cu Recompensă (RA-BC) prin reevaluarea datelor pe baza îmbunătățirii progresului, permițând modelului să distingă traiectoriile care fac progres de cele care stagnează.
Imagine din stânga: implementare reușită, progres învățat lin, crescând 0 → 1
Imagine din dreapta: lansare nereușită


👉 Disponibil acum pe site-ul LeRobot: Paper Project
✨ Credite autorilor originali pentru această lucrare extraordinară: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
893
Limită superioară
Clasament
Favorite
