L'apprentissage par renforcement (RL) jette souvent des signaux utiles à des étapes intermédiaires, ou comme l'a dit @karpathy, c'est comme "aspirer la supervision à travers une paille." MiniMax M2.5 résout cela avec des récompenses de processus par jeton. Le résultat est une performance de codage de pointe à un coût d'au moins 1/10e de celui des sources fermées. @thealexker explique comment ce mécanisme fonctionne et comment M2.5 excelle dans le travail de connaissance générale. Lisez-en plus ici :