nmoe prestatie resultaten bij bs=256. nmoe inferentie zal geoptimaliseerd worden voor numerieke stabiliteit voor RL roll-outs (we serveren EXACT wat we trainen)