今天,我们发布了 ATLAS 奖励系统,这是我们新颖的架构,在 RewardBench V2 上设定了 93.7% 的新 SOTA 准确率。 我们的核心理念是将奖励生成视为一个系统和路由问题。 线程 👇 完整技术博客: