分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

# なぜモエの訓練はこんなに難しいのか最近、小規模で研究に特化したトレーニングリポジトリを欲しがっています小さな実験も素早く簡単にできます。これらの実験は幅広く新しい注意力アーキテクチャ(MLA、SWA、NSA、KDA―すべてプラグイン可能)からマルチプレシジョントレーニングまで、多くの人が試しています最近、マルチオプティマイザーのセットアップに「新しい」オプティマイザーが導入されました。3専攻を試しました候補者(ニモ、メガトロン、トーチタイタン)ですが、さまざまな理由で私の目的には全く合わず、どれもかなり痛かったセットアップ、使用、安定して稼働させましょう。またしてもGoogleで使ったツールが恋しかったですそして、この目的のために制作トレーニングのスタックを書き直すこと(これは「テーダー」です) 大規模なインフラの監視と安定性のために作られた)もまた、貧しいと感じました時間の使い方が悪いと、古いリポジトリも新しいリポジトリも悪化します。しかし、なぜフロンティアのトレーニング品質が「やや小さい」のか考えさせられました。 MoE(例えば合計20Bパラメータ未満)がそんなに難しいですか?なぜリポジトリやリブIはそうしなかったのかすでに指名手配されているのか?しばらく考えた結果、ほとんどの私が思いついた課題は3つの異なることに集約されました。 - フロップス/フロップ効率 - 負荷分散/ルーターの安定性 - データの質と量フロップ最近では、密度の高いモデルのトレーニングはかなりシンプルです。訓練ダイナミクスは主に結合されており、アーキテクチャに十分なパラメータがあれば、モデルはあなたの多くのミスにもかかわらずほぼ学習します(これが私を噛みましたお尻を何度も。[DeepSeekスタイルの超スパール](MoEは訓練のダイナミクスが異なるため異なりますある程度切り離された感じです。特定のトークンに対して有効であるMLPの一部だけです。そして研修が進むにつれて、現役の専門家は変化し、進化していきます。これはなぜマルチエポックトレーニングやデータの言い換えがMoEにとってこれほど効果的なのか (特に大きなものは)。大きな推論効率の勝ちと小さな推論効率が生まれます...

トップ

ランキング

お気に入り