Схоже, Mistral готується випустити дві нові моделі: Ministral 3 і Mistral Large 3. З точки зору архітектури це, здається, таке: > точно так само, як llama2/3 для Ministral, який дуже схожий (навіть якщо додадуть SWA) на перший реліз Mistral 7B 2 роки тому. > абсолютно така сама архітектура, як у DeepSeek V3 для великої моделі (яка, здається, є MoE). для обох використовують мотузкове масштабування llama4 (замість пряжі), а для Large — спекулятивне декодування за допомогою орла Посилання на PRS у темі