Anspruch aus der Zusammenfassung: "106B-Parameter MoE (12B aktiv), trainiert mit großangelegtem Reinforcement Learning auf unserem End-to-End RL-Infrastruktur-Stack." Ich hatte erwartet, alles RL von Grund auf zu machen. Realität: Bereits existierendes Basismodell + SFT + RL 😿