Mistral sembra essere sul punto di rilasciare 2 nuovi modelli: Ministral 3 e Mistral Large 3. Dal punto di vista architettonico sembra essere: > esattamente lo stesso di llama2/3 per Ministral, che è molto simile (anche se aggiungono SWA) al primo rilascio di Mistral 7B di 2 anni fa. > esattamente la stessa architettura di DeepSeek V3 per il modello grande (che sembra essere un MoE) Per entrambi, utilizzano anche la scalatura rope di llama4 (invece di yarn), e per il modello Large sembrano implementare la decodifica speculativa con eagle link ai prs nella discussione