Твердження з анотації: "106B-параметровий MoE (12B активний) навчений з використанням масштабного підкріплення на нашому наскрізному стеку RL інфраструктури." Я очікував увесь RL з нуля. Реальність: Вже існуюча базова модель + SFT + RL 😿