Reclamo del resumen: "Modelo MoE de 106B parámetros (12B activos) entrenado con aprendizaje por refuerzo a gran escala en nuestra pila de infraestructura de RL de extremo a extremo." Esperaba todo el RL desde cero. Realidad: Modelo base ya existente + SFT + RL 😿