Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuevo modelo de recompensa llamado SARM —> Modelado de Recompensas Consciente de Etapas para la manipulación de robots a largo plazo, ya está en LeRobot! 🤗
La manipulación a largo plazo y rica en lentillas de contacto (piensa en doblar una camiseta) es un desastre. Las demostraciones incluyen, naturalmente, vacilaciones, correcciones y calidad variable. La Clonación Clásica de Comportamiento (BC) trata cada fotograma por igual, SARM adopta un enfoque más inteligente.
🔎 ¿Cómo funciona?
SARM utiliza un modelo de recompensa basado en vídeo para predecir:
• la etapa actual de la tarea
• progreso detallado dentro de esa etapa (0 → 1)
Esto permite la Clonación de Comportamiento Alineado con Recompensa (RA-BC) al reevaluar los datos en función de la mejora del progreso, lo que permite al modelo distinguir trayectorias que avanzan de aquellas que se estancan.
Imagen izquierda: despliegue exitoso, progreso aprendido aumentando de forma fluida 0 → 1
Imagen derecha: lanzamiento fallido


👉 Disponible ahora en la web de LeRobot: Proyecto en papel
✨ Créditos a los autores originales por esta increíble obra: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
846
Populares
Ranking
Favoritas
