Mistral 似乎即將推出 2 款新模型:Ministral 3 和 Mistral Large 3。 在架構方面,它似乎是: > 對於 Ministral,與 llama2/3 完全相同,這與 2 年前首次發布的 Mistral 7B 非常相似(即使他們添加了 SWA)。 > 對於大型模型,架構與 DeepSeek V3 完全相同(這似乎是一種 MoE)。 對於這兩者,他們還使用 llama4 的繩索縮放(而不是纖維),而對於大型模型,他們似乎實施了使用 eagle 的推測解碼。 在主題中的 prs 連結。