Интересно, как никто не понимает, что RL-пайплайн — это самая сложная часть создания модели SOTA в наши дни (по крайней мере, с размером до 1T параметров)