Mistral, похоже, собирается выпустить 2 новые модели: Ministral 3 и Mistral Large 3. С точки зрения архитектуры, похоже, что: > точно такая же, как у llama2/3 для Ministral, которая очень похожа (даже если они добавляют SWA) на первый релиз Mistral 7B два года назад. > точно такая же архитектура, как у DeepSeek V3 для большой модели (которая, похоже, является MoE) Для обеих моделей они также используют масштабирование rope от llama4 (вместо yarn), а для большой модели, похоже, они реализуют спекулятивное декодирование с eagle. Ссылка на prs в теме.