Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Говорить, что deepseek построил moe на основе mixtral, — это абсурд, так как статья deepseek moe вышла всего через 3 дня после публикации статьи mixtral на arxiv.
Кроме того, в статье mixtral нет никаких деталей о тренировке, поэтому утверждение "мы выпустили все, что нужно для восстановления этой архитектуры" также неверно. В статье просто говорится: "мы используем архитектуру google gshard с более простым маршрутизированием и moe на каждом слое", и нет никаких деталей о данных, гиперпараметрах, токенах для обучения, абляциях и т.д.
Архитектура, которую использует deepseek moe, на самом деле отличается от gshard и более разреженная (deepseek moe даже не ссылается на mixtral в статье, а на gshard).
Я не говорю, что mixtral не оказал влияния на moe, но то, что сказано в этом интервью, немного переписывает нарратив, чтобы сказать: "но посмотрите, Китай/deepseek тоже копирует mistral!"

Топ
Рейтинг
Избранное
