¡Un nuevo modelo de recompensa llamado SARM —> Modelado de Recompensa Consciente de la Etapa para la manipulación robótica a largo plazo ya está en LeRobot! 🤗 La manipulación a largo plazo, rica en contactos (piensa en doblar una camiseta) es desordenada. Las demostraciones naturalmente incluyen vacilaciones, correcciones y calidad variable. El Clonaje de Comportamiento Clásico (BC) trata cada fotograma por igual, SARM adopta un enfoque más inteligente. 🔎 ¿Cómo funciona? SARM utiliza un modelo de recompensa basado en video para predecir: • la etapa actual de la tarea • el progreso detallado dentro de esa etapa (0 → 1) Esto permite el Clonaje de Comportamiento Alineado a la Recompensa (RA-BC) al reponderar los datos en función de la mejora del progreso, permitiendo que el modelo distinga las trayectorias que avanzan de aquellas que se estancan. Imagen izquierda: despliegue exitoso, progreso aprendido aumentando suavemente de 0 → 1 Imagen derecha: despliegue no exitoso
👉 Disponible ahora en LeRobot: Paper Sitio web del proyecto ✨ Créditos a los autores originales por este increíble trabajo: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
862