c'est cool. je prédis qu'à partir de mai 2026, tout le monde pourra entraîner un modèle personnalisé comme celui-ci pour ~n'importe quelle tâche via une combinaison de prime-rl/verifiers, tinker, skyRL, slime, etc. le véritable avantage sera de savoir quelle tâche appliquer à l'apprentissage par renforcement et de la magie des données/environnement.