🆕 訓練代理推理者 今天的特點是 @willccbb 重返 AIE 舞台 RL 路徑 - 現在成為 @PrimeIntellect 的一部分! 許多代理建造者基本上是在做 "手動強化學習"。他在一張幻燈片上簡明扼要地解釋了當前的強化學習算法(!),但隨後辯稱強化學習 - 特別是對於開放模型 - 被困在數學和代碼問答的領域。 新的熱點是多回合代理強化學習,而新的驗證器庫是構建代理並將其轉變為強化學習循環的終極工具包。 更多人應該探索構建更好的代理模型,而 Will + PI 正在為每個人實現這一目標!
feedsImage
47.58K