Заявление из аннотации: "106B-параметрическая MoE (12B активных), обученная с использованием масштабного обучения с подкреплением на нашей инфраструктуре RL от начала до конца." Я ожидал полное обучение RL с нуля. Реальность: Уже существующая базовая модель + SFT + RL 😿