Özetten iddia: "106B-parametreli MoE (12B aktif), uçtan uca RL altyapı yığınımızda büyük ölçekli pekiştirme öğrenme ile eğitildi." Gerçek hayatta tamamen sıfırdan bekliyordum. Gerçeklik: Zaten var olan temel model + SFT + RL 😿