トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# なぜモエの訓練はこんなに難しいのか
最近、小規模で研究に特化したトレーニングリポジトリを欲しがっています
小さな実験も素早く簡単にできます。これらの実験は幅広く
新しい注意力アーキテクチャ(MLA、SWA、NSA、KDA―すべてプラグイン可能)からマルチプレシジョントレーニングまで、多くの人が試しています
最近、マルチオプティマイザーのセットアップに「新しい」オプティマイザーが導入されました。3専攻を試しました
候補者(ニモ、メガトロン、トーチタイタン)ですが、さまざまな理由で
私の目的には全く合わず、どれもかなり痛かった
セットアップ、使用、安定して稼働させましょう。またしてもGoogleで使ったツールが恋しかったです
そして、この目的のために制作トレーニングのスタックを書き直すこと(これは「テーダー」です)
大規模なインフラの監視と安定性のために作られた)もまた、貧しいと感じました
時間の使い方が悪いと、古いリポジトリも新しいリポジトリも悪化します。
しかし、なぜフロンティアのトレーニング品質が「やや小さい」のか考えさせられました。
MoE(例えば合計20Bパラメータ未満)がそんなに難しいですか?なぜリポジトリやリブIはそうしなかったのか
すでに指名手配されているのか?しばらく考えた結果、ほとんどの
私が思いついた課題は3つの異なることに集約されました。
- フロップス/フロップ効率
- 負荷分散/ルーターの安定性
- データの質と量
フロップ
最近では、密度の高いモデルのトレーニングはかなりシンプルです。訓練
ダイナミクスは主に結合されており、アーキテクチャに十分なパラメータがあれば、
モデルはあなたの多くのミスにもかかわらずほぼ学習します(これが私を噛みました
お尻を何度も。[DeepSeekスタイルの超スパール](MoEは訓練のダイナミクスが異なるため異なります
ある程度切り離された感じです。特定のトークンに対して有効であるMLPの一部だけです。
そして研修が進むにつれて、現役の専門家は変化し、進化していきます。これは
なぜマルチエポックトレーニングやデータの言い換えがMoEにとってこれほど効果的なのか
(特に大きなものは)。大きな推論効率の勝ちと小さな推論効率が生まれます...

トップ
ランキング
お気に入り
