Abbiamo fatto molta strada nella stabilità dell'addestramento RL asincrono. Non molto tempo fa, un grpo ingenuo si bloccava semplicemente con la compilazione di torch a causa di un'incongruenza. Ma ora possiamo andare molto lontano dalla politica per gestire l'RL agentico. Ci sono molti dettagli davvero importanti nel calcolo della perdita di prime-rl; attivare il nostro ultimo miglioramento della stabilità in alcune delle nostre esecuzioni fa una grande differenza nell'incongruenza di KL.
gran parte di esso proviene da @Grad62304977 che trova alpha in un recente documento
116