RL часто отбрасывает полезный сигнал на промежуточных этапах, или, как сказал @karpathy, это похоже на "высасывание супервизии через соломинку." MiniMax M2.5 решает эту проблему с помощью вознаграждений за процесс по каждому токену. Результат — производительность кодирования на переднем крае при стоимости как минимум в 1/10 закрытого исходного кода. @thealexker объясняет, как работает этот механизм и как M2.5 превосходит в области общего знания. Читайте об этом здесь: