追加の訓練なしでAI推論を3倍速くすることも可能です。 SJTUとファーウェイの研究者たちは、そのためにLoPAを発表しています! 彼らの新しい「Lookahead Parallel Decoding」方法はプラグアンドプレイの方法です。複数のトークンを一つずつ生成するのではなく、最適な順序を賢く予測し、大規模な並列計算を解放します。 D2F-Dreamモデルを1ステップあたり10+トークンの出力に強化し、1秒あたり1070トークン以上を達成し、コーディング(MBPP)や数学(GSM8K)ベンチマークで他のトップ推論システムを大きく上回る性能を発揮しています。 LoPA:ルックアヘッド並列デコーディングによるdLLM推論のスケーリング 論文: コード: ブログ: 私たちの報告: 📬 #PapersAccepted:ジーチジシン