DeepSeekはO(L²)の注意のボトルネックを突破しました。 新しいV3.2モデルではDeepSeek Sparse Attention(DSA)が導入されており、これが唯一のアーキテクチャ変更です。それがどれほど重要かを物語っています。 何が解決するのか: 標準的な注意は2乗スケールです。コンテキストの長さを2倍にし、計算量を4倍にします。これがロングコンテキスト推論が急速にコストがかかる理由です。 DSAは複雑度をO(L²)からO(Lk)に下げ、kが固定されます。 仕組み: 軽量のライトニングインデクサーは、各クエリで実際に重要なトークンを評価します。ヘッド数は少なく、FP8で動作し、計算コストも低く。その後、選択機構が上位k個のキー値エントリのみを取得します。 重要な洞察は、コンテキストの長さに関係なく、1クエリごとに選ばれるトークンはわずか2,048個ということです。高価な注意計算はこの小さな部分集合で行われ、128Kの全シーケンスではありません。 注意が少なければ、結果は良くなります。DeepSeek V3.2がそれを証明しました。 結果は以下の通りです: 128Kのコンテキストでは、プリフィルコストは100万トークンあたり~$0.65から~$0.35に下がります。復号料金は~$2.4から~$0.8に下がります。 そしてパフォーマンスは?そのままです。一部の長期コンテキストベンチマークでは、V3.2の方が実際により高いスコアを得ています。 注目が少なくなるのは新しいことではありません。品質を落とさずにうまく機能させるのは難しいです。 DeepSeekは2段階のトレーニングプロセスでこれを解き、まずKL発散を使ってインデクサーを整列し、次にモデル全体をスパースパターンに適応させる訓練を行いました。 これがコストを上げずにコンテキストをスケールさせる方法です。 ...