Am evoluat atât de mult în stabilitatea antrenamentului asincron în viața reală Nu cu mult timp în urmă, grpo-ul naiv se bloca cu compilarea torței din cauza nepotrivirii. Dar acum putem merge foarte departe de politică pentru a gestiona RL-ul agentic O mulțime de detalii foarte importante în calculul pierderilor prime-RL, activarea ultimei noastre îmbunătățiri de stabilitate la unele dintre run-uri face o diferență majoră în nepotrivirea kl
Majoritatea provin din @Grad62304977 găsirea lui Alpha într-un articol recent
92