Nowy model nagród o nazwie SARM —> Modelowanie nagród świadome etapu dla manipulacji robotów na długim horyzoncie jest już w LeRobot! 🤗 Manipulacja na długim horyzoncie, bogata w kontakt (pomyśl o składaniu koszulki) jest chaotyczna. Demonstracje naturalnie zawierają wahania, poprawki i zmienną jakość. Klasyczne Klonowanie Zachowań (BC) traktuje każdą klatkę równo, SARM przyjmuje mądrzejsze podejście. 🔎 Jak to działa? SARM wykorzystuje model nagród oparty na wideo do przewidywania: • aktualnego etapu zadania • szczegółowego postępu w tym etapie (0 → 1) To umożliwia Klonowanie Zachowań Zgodnych z Nagrodą (RA-BC) poprzez przeważanie danych na podstawie poprawy postępu, co pozwala modelowi odróżnić trajektorie, które robią postępy, od tych, które utknęły. Lewa grafika: udana realizacja, nauczony postęp płynnie wzrastający 0 → 1 Prawa grafika: nieudana realizacja
👉 Dostępne teraz w LeRobot: Papier Strona projektu ✨ Podziękowania dla oryginalnych autorów za tę niesamowitą pracę: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
896