これを実装して、AIの20%の無料高速化をもらいました! ~ トレーニング不要のマルチトークン予測により、LLMは15〜26%高速化します Qualcomm AI Researchの研究者たちは、再学習なし、追加パラメータなし、品質損失ゼロでLLMを劇的に高速化する画期的な推論技術を発表しました。 論文「埋め込み空間プロービングによる効率的な訓練なしマルチトークン予測」は、スマートな「マスクトークン」でモデル自身の埋め込み空間を動的にプローブすることで、複数の将来のトークンを並列に予測する方法を示しています。 スピードアップのハイライト • LLaMA3.1-8B、Qwen3および類似モデルで15〜19%のスループット向上 ・単純な最適化で最大26%のスループット向上 ・例:LLaMA3.1-8Bで38.9→40.5+トークン/秒 ・モデルフォワードパス数を最大40%減少 完全にプラグアンドプレイで、凍結された自己回帰型LLMでも動作し、標準的なデコードと同じ出力を生成します。 他のトレーニングなしベースライン(Lookahead Decoding、Prompt Lookup)を24%上回って受け入れ率とスループットが優れています ・モデルフォワードパス数を最大40%減少 • 通常の復号とロスレスで同一の出力 • 今日、追加コストや複雑さなしでより高速なLLMを求める場合に理想的です ローカルAI、エッジデバイス、モバイルアプリ、リアルタイムチャット、クラウド推論コスト削減に最適です。 現在は全モデルでこの機能を使っており、JouleWorkの出力が大幅に増加しました。 • PDF: