Un nou model de recompensă numit SARM — > Modelare a Recompenselor Conștiente de Nivel pentru manipularea roboților pe termen lung este acum în LeRobot! 🤗 Manipularea pe termen lung, bogată în contacte (gândește-te la plierea unui tricou) este dezordonată. Demonstrațiile includ, în mod natural, ezitări, corecții și variabile de calitate. Clonarea Comportamentală Clasică (BC) tratează fiecare cadru în mod egal, SARM adoptă o abordare mai inteligentă. 🔎 Cum funcționează? SARM folosește un model de recompensă bazat pe video pentru a prezice: • etapa actuală a sarcinii • progres detaliat în acea etapă (0 → 1) Aceasta permite Clonarea Comportamentului Aliniat cu Recompensă (RA-BC) prin reevaluarea datelor pe baza îmbunătățirii progresului, permițând modelului să distingă traiectoriile care fac progres de cele care stagnează. Imagine din stânga: implementare reușită, progres învățat lin, crescând 0 → 1 Imagine din dreapta: lansare nereușită
👉 Disponibil acum pe site-ul LeRobot: Paper Project ✨ Credite autorilor originali pentru această lucrare extraordinară: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
893