Ми пройшли довгий шлях у стабільності асинхронного RL тренування Ще не так давно наївні grpo просто вилітали з компіляцією факелів через невідповідність. Але тепер ми можемо дуже далеко відійти від політики, щоб вирішувати агентські реальні життя Багато дуже важливих деталей у розрахунку втрат прайм-RL, а також використання нашого останнього покращення стабільності на деяких пробігах суттєво впливає на невідповідність KL
Більшість з них походить від того@Grad62304977 що я знайшов альфу в останніх статтях
160