Als ik opnieuw naar de documenten kijk, wed ik dat GSPO en CISPO zijn afgeleid vanwege de numerieke hel van grote MoE RL, en dat verklaart waarom je bij eenvoudigere opstellingen minder voordeel van hen ziet.