トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeekがMixtralの上にMoeを築いたというのはナンセンスです。Deepseek Moeの論文は、Mixtral論文がARXIVに投稿されてからわずか3日後に発表されました
また、mixtralの論文には訓練の詳細が全くなく、「この種のアーキテクチャを再構築するために必要なものはほぼすべて公開した」というのも誤りです。論文は「Google GSHARD Archを使い、よりシンプルなルーティングとすべてのレイヤーのMOEを使った」とだけで、データ、ハイパーパラメータ、トレーニングトークン、アブレーションなどの詳細は記載されていません。
Deepseek Moeが使うアーキテクチャは実際にはGShardとは異なり、より簡素です(論文ではDeepseek MoeはMixtralを引用していませんが、GSHARDは引用しています)。
ミクストラルがモーに影響を与えなかったとは言いませんが、このインタビューで言われていることは少し物語を書き換え、「でも見てみろ、チャイナ/ディープシークもミストラルをコピーしているんだ!」と言っているようなものです。

トップ
ランキング
お気に入り
