Revendication de l'abstract : "Modèle MoE de 106 milliards de paramètres (12 milliards actifs) entraîné avec un apprentissage par renforcement à grande échelle sur notre infrastructure RL de bout en bout." Je m'attendais à un apprentissage par renforcement complet. Réalité : Modèle de base déjà existant + SFT + RL 😿