Mistral scheint kurz davor zu sein, 2 neue Modelle herauszubringen: Ministral 3 und Mistral Large 3. Architekturtechnisch scheint es zu sein: > genau dasselbe wie llama2/3 für Ministral, das sehr ähnlich (auch wenn sie SWA hinzufügen) zum ersten Mistral 7B Release vor 2 Jahren ist. > genau dieselbe Architektur wie DeepSeek V3 für das große Modell (das scheint ein MoE zu sein) Für beide verwenden sie auch llama4 Rope-Skalierung (anstatt Yarn), und für das große Modell scheinen sie spekulatives Decoding mit Eagle zu implementieren. Link zu PRs im Thread