Affermare dall'astratto: "MoE da 106B parametri (12B attivi) addestrato con apprendimento per rinforzo su larga scala sulla nostra infrastruttura end-to-end di RL." Mi aspettavo tutto RL da zero. Realtà: Modello di base già esistente + SFT + RL 😿