🚀 Představujeme SARM: Stage-Aware Reward Modeling pro manipulaci s roboty s dlouhým horizontem Roboti se potýkají s úkoly, jako je skládání zmačkaného trička – dlouhého, bohatého na kontakty a těžko označitelného. Navrhujeme škálovatelný rámec pro modelování odměn, který to napraví. 1/n