トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIAはLLMにおける最大のトレードオフを解決するかもしれない論文を発表しました。
スピードと品質。
自己回帰モデル(GPTのような)は賢いですが遅く、一度に1つのトークンを生成するため、GPUの大部分は放置されます。
拡散モデルは高速ですが、しばしば非整合性の出力を生み出します。
TiDARは両方を一度の前方パスで撮影します。
ここが天才的な点です:
現代のGPUは、実際に使うトークンよりもはるかに多くのトークンを処理できます。TiDARはこれらの「無料スロット」を以下のように活用しています:
1. 拡散を用いて複数のトークンを同時にドラフトする(「思考」フェーズ)
2. 自己回帰(「トーキング」フェーズ)による検証
どちらもスマートアテンシャルマスクを使って同時に起こります。ドラフティングは双方向、検証はカウザンです。
結果は以下の通りです:
↳ 1.5Bパラメータで4.71倍高速で、品質損失ゼロ
↳ 8Bパラメータでほぼ6倍高速
↳ 投機的復号を上回る初のアーキテクチャ(EAGLE-3)
↳ 純粋なディフュージョンモデルとは異なり、標準的なKVキャッシュで動作します
トレーニングのトリックも巧妙で、トークンをランダムにマスキングするのではなく、すべてをマスキングします。これにより学習信号が強まり、効率的な単一ステップドラフティングが可能になります。
リアルタイムAIエージェントを構築し、遅延が体験を損なう場合、このアーキテクチャは注目に値します。
...

トップ
ランキング
お気に入り

