Новая модель вознаграждения под названием SARM —> Моделирование вознаграждения с учетом этапов для долгосрочной манипуляции роботами теперь доступна в LeRobot! 🤗 Долгосрочная манипуляция с контактами (представьте, что складываете футболку) — это не просто. Демонстрации естественным образом включают колебания, исправления и переменное качество. Классическое поведенческое клонирование (BC) рассматривает каждый кадр одинаково, SARM использует более умный подход. 🔎 Как это работает? SARM использует модель вознаграждения на основе видео для предсказания: • текущего этапа задачи • детализированного прогресса в этом этапе (0 → 1) Это позволяет использовать поведенческое клонирование, согласованное с вознаграждением (RA-BC), путем переоценки данных на основе улучшения прогресса, позволяя модели различать траектории, которые делают прогресс, от тех, которые застревают. Левое изображение: успешный запуск, плавно увеличивающийся прогресс 0 → 1 Правое изображение: неуспешный запуск
👉 Доступно сейчас в LeRobot: Paper Сайт проекта ✨ Благодарности оригинальным авторам за эту потрясающую работу: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
899