Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Останнім часом я не стежив уважно за посттренінгом, але схоже, що DeepSeek стає повністю нонконформістським проти норм спільноти:
- все ще використовує GRPO, але замість лише перевірених винагород використовуйте правильні моделі винагород
- не просто обрізає вище + зберігає член KL-дивергенції, а виправляє його з перших принципів за допомогою оцінки K3 2020 року від Шульмана та ін.
- не перемикається на fp32 при висновку або не додає пакетно-інваріантні ядра, як Thinky, і не зациклюється на позаполітичних особливостях — натомість додає бінарну маску, використовуючи KL-div як поріг для підозрілих негативних вибірок, щоб модель навчалася на власних помилках із сильнішим сигналом
- зберігає ту ж експертну маршрутизацію, топ-k і топ-п під час виведення, як і в тренуванні
Найкращі
Рейтинг
Вибране

