Klaim dari abstrak: "106B-parameter MoE (12B aktif) dilatih dengan pembelajaran penguatan skala besar pada tumpukan infrastruktur RL end-to-end kami." Saya mengharapkan semua RL dari awal. Realitas: Model dasar yang sudah ada + SFT + RL 😿