Стверджувати, що Deepseek побудував MoE на Mixtral — це нісенітниця; стаття Deepseek Moe вийшла всього через 3 дні після публікації Mixtral на Arxiv. Також у статті Mixtral буквально немає жодних деталей про навчання, тож «ми випустили майже все, що було потрібно для перебудови такої архітектури» — це теж неправда, у статті просто сказано: «Ми використовуємо Google GSHARD Arch з простішим маршрутизуванням і Moe на кожному рівні», і немає деталей про дані, гіперпараметри, тренувальні токени, абляції тощо. Архітектура, яку використовує Deepseek Moe, насправді відрізняється від GSHARD і є більш стриманою (Deepseek Moe навіть не цитує mixtral у статті, а GSHARD) Я не кажу, що Mixtral не вплинув на Мо, але те, що сказано в цьому інтерв'ю, трохи переписує наратив: «Але дивись, Китай/Deepseek також копіює Містрал!»