Urazili jsme obrovskou cestu v asynchronním trénování a stabilitě Ještě nedávno naivní grpo prostě spadlo s Torch Compile kvůli nesouladu. Ale teď můžeme jít velmi daleko od politiky při řešení agentického RL Spousta opravdu důležitých detailů při výpočtu ztrát v prime-RL, zapnutí našeho nejnovějšího zlepšení stability u některých našich běhů výrazně ovlivňuje nesoulad v kl
Většina z toho pochází z @Grad62304977 nalezení alfa v nedávných článcích
117