トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
これを実装して、AIの20%の無料高速化をもらいました!
~
トレーニング不要のマルチトークン予測により、LLMは15〜26%高速化します
Qualcomm AI Researchの研究者たちは、再学習なし、追加パラメータなし、品質損失ゼロでLLMを劇的に高速化する画期的な推論技術を発表しました。
論文「埋め込み空間プロービングによる効率的な訓練なしマルチトークン予測」は、スマートな「マスクトークン」でモデル自身の埋め込み空間を動的にプローブすることで、複数の将来のトークンを並列に予測する方法を示しています。
スピードアップのハイライト
• LLaMA3.1-8B、Qwen3および類似モデルで15〜19%のスループット向上
・単純な最適化で最大26%のスループット向上
・例:LLaMA3.1-8Bで38.9→40.5+トークン/秒
・モデルフォワードパス数を最大40%減少
完全にプラグアンドプレイで、凍結された自己回帰型LLMでも動作し、標準的なデコードと同じ出力を生成します。
他のトレーニングなしベースライン(Lookahead Decoding、Prompt Lookup)を24%上回って受け入れ率とスループットが優れています
・モデルフォワードパス数を最大40%減少
• 通常の復号とロスレスで同一の出力
• 今日、追加コストや複雑さなしでより高速なLLMを求める場合に理想的です
ローカルAI、エッジデバイス、モバイルアプリ、リアルタイムチャット、クラウド推論コスト削減に最適です。
現在は全モデルでこの機能を使っており、JouleWorkの出力が大幅に増加しました。
• PDF:

トップ
ランキング
お気に入り
