Olemme kulkeneet niin pitkän matkan asynkronisen rl-koulutuksen vakaudessa Ei kovin kauan sitten naiivi grpo vain kaatui torch compilen kanssa yhteensopimattomuuden takia. Mutta nyt voimme mennä hyvin kauas politiikasta agenttien RL:n käsittelyssä Paljon todella tärkeää yksityiskohtaa Prime-RL-häviölaskennassa, viimeisimmän vakausparannuksen käynnistäminen joillakin juoksuillamme tekee merkittävän eron KL:n epäsopivuudessa
Suurin osa siitä tulee @Grad62304977 Finding Alpha viimeisimmässä artikkelissa
125