Väite tiivistelmästä: "106B-parametri MoE (12B aktiivinen) koulutettu laajamittaisella vahvistusoppimisella päästä päähän -RL-infrastruktuuripinossamme." Odotin kaiken RL:n alusta alkaen. Todellisuus: Jo olemassa oleva perusmalli + SFT + RL 😿