NVIDIAはLLMにおける最大のトレードオフを解決するかもしれない論文を発表しました。 スピードと品質。 自己回帰モデル(GPTのような)は賢いですが遅く、一度に1つのトークンを生成するため、GPUの大部分は放置されます。 拡散モデルは高速ですが、しばしば非整合性の出力を生み出します。 TiDARは両方を一度の前方パスで撮影します。 ここが天才的な点です: 現代のGPUは、実際に使うトークンよりもはるかに多くのトークンを処理できます。TiDARはこれらの「無料スロット」を以下のように活用しています: 1. 拡散を用いて複数のトークンを同時にドラフトする(「思考」フェーズ) 2. 自己回帰(「トーキング」フェーズ)による検証 どちらもスマートアテンシャルマスクを使って同時に起こります。ドラフティングは双方向、検証はカウザンです。 結果は以下の通りです: ↳ 1.5Bパラメータで4.71倍高速で、品質損失ゼロ ↳ 8Bパラメータでほぼ6倍高速 ↳ 投機的復号を上回る初のアーキテクチャ(EAGLE-3) ↳ 純粋なディフュージョンモデルとは異なり、標準的なKVキャッシュで動作します トレーニングのトリックも巧妙で、トークンをランダムにマスキングするのではなく、すべてをマスキングします。これにより学習信号が強まり、効率的な単一ステップドラフティングが可能になります。 リアルタイムAIエージェントを構築し、遅延が体験を損なう場合、このアーキテクチャは注目に値します。 ...