Vi har kommit så långt i asynkron träningsstabilitet i realtid Inte så länge sedan kraschade naiv grpo bara med Torch Compile på grund av mismatch. Men nu kan vi gå väldigt långt från policyn och hantera agentisk RL Många riktigt viktiga detaljer i beräkning av prime-rl-förluster, att slå på vår senaste stabilitetsförbättring på vissa av våra runs gör en stor skillnad i KL-mismatchen
Det mesta kommer från @Grad62304977 att hitta alfa i en nyare artikel
161