Dnes vydáváme systém odměn ATLAS, naši novou architekturu, která nastavuje novou SOTA na RewardBench V2 s přesností 93,7 %. Naší hlavní myšlenkou bylo přistupovat ke generování odměn jako k systémovému a směrovacímu problému. Vlákno 👇 Celý technický blog: