正直なところ、彼らがGRPOに非常に忠実なのは、パッチの適用や理解に多大な投資をしているからだと思います。彼らは新しいデータの短い反復のために長さバイアスのコストを支払う覚悟があります。もしDeepSeekでなければ、GRPOを飛び越えてみるのも手かもしれません。