Parece que Mistral está a punto de lanzar 2 nuevos modelos: Ministral 3 y Mistral Large 3. En cuanto a la arquitectura, parece ser: > exactamente igual que llama2/3 para Ministral, que es muy similar (aunque añadan SWA) al primer lanzamiento de Mistral 7B hace 2 años. > exactamente la misma arquitectura que DeepSeek V3 para el grande (que parece ser un MoE) para ambos, también usan escalado de cuerda llama4 (en lugar de hilo), y para el Large parecen implementar decodificación especulativa con eagle Enlace a PRS en el hilo