Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowy model nagród o nazwie SARM —> Modelowanie nagród świadome etapu dla manipulacji robotów na długim horyzoncie jest już w LeRobot! 🤗
Manipulacja na długim horyzoncie, bogata w kontakt (pomyśl o składaniu koszulki) jest chaotyczna. Demonstracje naturalnie zawierają wahania, poprawki i zmienną jakość. Klasyczne Klonowanie Zachowań (BC) traktuje każdą klatkę równo, SARM przyjmuje mądrzejsze podejście.
🔎 Jak to działa?
SARM wykorzystuje model nagród oparty na wideo do przewidywania:
• aktualnego etapu zadania
• szczegółowego postępu w tym etapie (0 → 1)
To umożliwia Klonowanie Zachowań Zgodnych z Nagrodą (RA-BC) poprzez przeważanie danych na podstawie poprawy postępu, co pozwala modelowi odróżnić trajektorie, które robią postępy, od tych, które utknęły.
Lewa grafika: udana realizacja, nauczony postęp płynnie wzrastający 0 → 1
Prawa grafika: nieudana realizacja


👉 Dostępne teraz w LeRobot: Papier Strona projektu
✨ Podziękowania dla oryginalnych autorów za tę niesamowitą pracę: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
896
Najlepsze
Ranking
Ulubione
