Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Стверджувати, що Deepseek побудував MoE на Mixtral — це нісенітниця; стаття Deepseek Moe вийшла всього через 3 дні після публікації Mixtral на Arxiv.
Також у статті Mixtral буквально немає жодних деталей про навчання, тож «ми випустили майже все, що було потрібно для перебудови такої архітектури» — це теж неправда, у статті просто сказано: «Ми використовуємо Google GSHARD Arch з простішим маршрутизуванням і Moe на кожному рівні», і немає деталей про дані, гіперпараметри, тренувальні токени, абляції тощо.
Архітектура, яку використовує Deepseek Moe, насправді відрізняється від GSHARD і є більш стриманою (Deepseek Moe навіть не цитує mixtral у статті, а GSHARD)
Я не кажу, що Mixtral не вплинув на Мо, але те, що сказано в цьому інтерв'ю, трохи переписує наратив: «Але дивись, Китай/Deepseek також копіює Містрал!»

Найкращі
Рейтинг
Вибране
