# なぜモエの訓練はこんなに難しいのか 最近、小規模で研究に特化したトレーニングリポジトリを欲しがっています 小さな実験も素早く簡単にできます。これらの実験は幅広く 新しい注意力アーキテクチャ(MLA、SWA、NSA、KDA―すべてプラグイン可能)からマルチプレシジョントレーニングまで、多くの人が試しています 最近、マルチオプティマイザーのセットアップに「新しい」オプティマイザーが導入されました。3専攻を試しました 候補者(ニモ、メガトロン、トーチタイタン)ですが、さまざまな理由で 私の目的には全く合わず、どれもかなり痛かった セットアップ、使用、安定して稼働させましょう。またしてもGoogleで使ったツールが恋しかったです そして、この目的のために制作トレーニングのスタックを書き直すこと(これは「テーダー」です) 大規模なインフラの監視と安定性のために作られた)もまた、貧しいと感じました 時間の使い方が悪いと、古いリポジトリも新しいリポジトリも悪化します。 しかし、なぜフロンティアのトレーニング品質が「やや小さい」のか考えさせられました。 MoE(例えば合計20Bパラメータ未満)がそんなに難しいですか?なぜリポジトリやリブIはそうしなかったのか すでに指名手配されているのか?しばらく考えた結果、ほとんどの 私が思いついた課題は3つの異なることに集約されました。 - フロップス/フロップ効率 - 負荷分散/ルーターの安定性 - データの質と量 フロップ 最近では、密度の高いモデルのトレーニングはかなりシンプルです。訓練 ダイナミクスは主に結合されており、アーキテクチャに十分なパラメータがあれば、 モデルはあなたの多くのミスにもかかわらずほぼ学習します(これが私を噛みました お尻を何度も。[DeepSeekスタイルの超スパール](MoEは訓練のダイナミクスが異なるため異なります ある程度切り離された感じです。特定のトークンに対して有効であるMLPの一部だけです。 そして研修が進むにつれて、現役の専門家は変化し、進化していきます。これは なぜマルチエポックトレーニングやデータの言い換えがMoEにとってこれほど効果的なのか (特に大きなものは)。大きな推論効率の勝ちと小さな推論効率が生まれます...