Wenn ich mir die Unterlagen nochmal anschaue, wette ich, dass GSPO und CISPO aufgrund der numerischen Hölle von großem MoE RL abgeleitet wurden, und das erklärt, warum man bei einfacheren Setups weniger Nutzen daraus zieht.