les résultats de perf nmoe à bs=256. l'inférence nmoe sera optimisée pour la stabilité numérique pour les déploiements RL (nous servons EXACTEMENT ce que nous entraînons)