Afirmación del resumen: "MoE de 106B parámetros (12B activo) entrenado con aprendizaje por refuerzo a gran escala en nuestra pila de infraestructura RL de extremo a extremo." Esperaba todo en la vida real desde cero. Realidad: Modelo base ya existente + SFT + RL 😿