Påstand fra sammendraget: "106B-parameter MoE (12B aktiv) trent med storskala forsterkningslæring på vår ende-til-ende RL-infrastrukturstack." Jeg forventet alt RL fra bunnen av. Virkelighet: Allerede eksisterende basismodell + SFT + RL 😿