🚀 Vi introduserer SARM: Scenebevisst belønningsmodellering for robotmanipulasjon med lang horisont Roboter sliter med oppgaver som å brette en krøllete T-skjorte – lang, kontaktrik og vanskelig å merke. Vi foreslår et skalerbart rammeverk for belønningsmodellering for å fikse det. 1/n