Claim uit de samenvatting: "106B-parameter MoE (12B actief) getraind met grootschalige versterkingsleren op onze end-to-end RL-infrastructuurstack." Ik verwachtte alles RL vanaf nul. Realiteit: Al bestaand basismodel + SFT + RL 😿