Reivindicação do resumo: "Modelo MoE com 106B parâmetros (12B ativos) treinado com aprendizado por reforço em larga escala na nossa pilha de infraestrutura de RL de ponta a ponta." Eu esperava todo o RL do zero. Realidade: Modelo base já existente + SFT + RL 😿