Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новая модель вознаграждения под названием SARM —> Моделирование вознаграждения с учетом этапов для долгосрочной манипуляции роботами теперь доступна в LeRobot! 🤗
Долгосрочная манипуляция с контактами (представьте, что складываете футболку) — это не просто. Демонстрации естественным образом включают колебания, исправления и переменное качество. Классическое поведенческое клонирование (BC) рассматривает каждый кадр одинаково, SARM использует более умный подход.
🔎 Как это работает?
SARM использует модель вознаграждения на основе видео для предсказания:
• текущего этапа задачи
• детализированного прогресса в этом этапе (0 → 1)
Это позволяет использовать поведенческое клонирование, согласованное с вознаграждением (RA-BC), путем переоценки данных на основе улучшения прогресса, позволяя модели различать траектории, которые делают прогресс, от тех, которые застревают.
Левое изображение: успешный запуск, плавно увеличивающийся прогресс 0 → 1
Правое изображение: неуспешный запуск


👉 Доступно сейчас в LeRobot: Paper Сайт проекта
✨ Благодарности оригинальным авторам за эту потрясающую работу: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
899
Топ
Рейтинг
Избранное
