الادعاء من الملخص: "MoE ب 106B معامل (12B نشط) تم تدريبه على التعلم المعزز واسع النطاق على بنية البنية التحتية للتعلم المعزز من الطرف إلى الطرف." كنت أتوقع كل التعلم الواقعي من الصفر. الواقع: نموذج أساسي موجود بالفعل + SFT + RL 😿