Останнім часом я не стежив уважно за посттренінгом, але схоже, що DeepSeek стає повністю нонконформістським проти норм спільноти: - все ще використовує GRPO, але замість лише перевірених винагород використовуйте правильні моделі винагород - не просто обрізає вище + зберігає член KL-дивергенції, а виправляє його з перших принципів за допомогою оцінки K3 2020 року від Шульмана та ін. - не перемикається на fp32 при висновку або не додає пакетно-інваріантні ядра, як Thinky, і не зациклюється на позаполітичних особливостях — натомість додає бінарну маску, використовуючи KL-div як поріг для підозрілих негативних вибірок, щоб модель навчалася на власних помилках із сильнішим сигналом - зберігає ту ж експертну маршрутизацію, топ-k і топ-п під час виведення, як і в тренуванні