Я в последнее время не следил за пост-тренировкой, но похоже, что DeepSeek идет в полный разрез с нормами сообщества: - все еще использует GRPO, но вместо только проверяемых вознаграждений использует правильные модели вознаграждений - не просто обрезает более высокие значения и все еще сохраняет термин KL-дивергенции, но исправляет его с первых принципов, используя оценщик K3 2020 года от Шульмана и др. - не переключается на fp32 при выводе и не добавляет инвариантные по отношению к пакетам ядра, как Thinky, и не зацикливается на странностях офф-политики – вместо этого добавляет бинарную маску, используя KL-див как порог для подозрительных отрицательных образцов, так что модель учится на своих собственных ошибках с более сильным сигналом - сохраняет тот же экспертный маршрутизацию, top-k и top-p во время вывода, как и в обучении