Rezultatele performanței NMOE la bs=256. NMOE Inference va fi optimizată pentru stabilitate numerică pentru implementările RL (servim EXACT ceea ce antrenăm)