Afirmação do resumo: "MoE com parâmetro 106B (12B ativo) treinado com aprendizado por reforço em grande escala em nossa pilha de infraestrutura RL de ponta a ponta." Eu esperava tudo na vida real do zero. Realidade: Modelo base já existente + SFT + RL 😿