Když se znovu podívám na články, tipuji, že GSPO a CISPO byly odvozeny kvůli numerickému peklu velkého MoE RL, a vysvětluje, proč na jednodušších sestavách vidíte menší přínos z nich