Tvrzení z abstraktu: "MoE s 106B-parametrem (12B aktivní) trénováno s velkoplošným posilovacím učením na našem end-to-end RL infrastrukturním stacku." Očekával jsem celý reálný život od začátku. Realita: Již existující základní model + SFT + RL 😿