RL kaster ofte bort nyttige signaler på mellomsteg, eller som @karpathy sier, det er som å «suge tilsyn gjennom et sugerør». MiniMax M2.5 løser dette med belønninger per token-prosess. Resultatet er grensekodingsytelse som er minst 1/10 av kostnaden til lukket kildekode. @thealexker forklarer hvordan denne mekanismen fungerer og hvordan M2.5 utmerker seg i generell kunnskapsarbeid. Les om det her: