We hebben een lange weg afgelegd in de stabiliteit van async rl-training. Niet zo lang geleden zou een naïeve grpo gewoon crashen met torch compile vanwege een mismatch. Maar nu kunnen we heel ver van het beleid afwijken om agentic RL te behandelen. Er zijn veel echt belangrijke details in de berekening van de prime-rl-verliesfunctie; het inschakelen van onze laatste stabiliteitsverbetering op sommige van onze runs maakt een groot verschil in kl-mismatch.
het grootste deel komt van @Grad62304977 die alpha vindt in recent onderzoek
120