Mistral似乎即将发布两个新模型:Ministral 3和Mistral Large 3。 在架构方面,它似乎是: > 对于Ministral,架构与llama2/3完全相同,这与两年前首次发布的Mistral 7B非常相似(即使他们添加了SWA)。 > 对于大型模型,它的架构与DeepSeek V3完全相同(这似乎是一个MoE)。 对于这两个模型,他们还使用了llama4的绳索缩放(而不是纱线),而对于大型模型,他们似乎实现了使用eagle的推测解码。 线程中的prs链接