Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нова модель винагороди під назвою SARM — > Stage-Aware Reward Modeling для маніпуляції роботами з довготривалим горизонтом вже з'явилася в LeRobot! 🤗
Маніпуляція з довгостроковими перспективами (наприклад, складати футболку) — це брудно. Демонстрації природно включають вагання, виправлення та змінну якість. Класичне клонування поведінки (BC) розглядає кожен кадр однаково, SARM застосовує розумніший підхід.
🔎 Як це працює?
SARM використовує відео-модель винагороди для прогнозування:
• поточний етап завдання
• тонкий прогрес у межах цього етапу (0 → 1)
Це дозволяє здійснювати клонування поведінки, узгоджену з винагородою (RA-BC), перезважуючи дані на основі покращення прогресу, що дозволяє моделі відрізняти траєкторії, які досягають прогресу, від тих, що затягують.
Ліве зображення: успішне розгортання, плавний прогрес зростає 0 → 1
Правильне зображення: невдалий запуск


👉 Доступно вже на сайті LeRobot: Paper Project
✨ Належне оригінальним авторам за цю чудову роботу: Цяньчжун Чен @QianzhongChen, Джастін Ю, Мак Швагер, Пітер Аббіл, Йіде Шенту, Філіп Ву
885
Найкращі
Рейтинг
Вибране
