Yêu cầu từ tóm tắt: "Mô hình MoE 106B tham số (12B hoạt động) được đào tạo với học tăng cường quy mô lớn trên hạ tầng RL end-to-end của chúng tôi." Tôi đã mong đợi tất cả RL từ đầu. Thực tế: Mô hình cơ bản đã tồn tại + SFT + RL 😿