Kami Baru Saja Menerapkan Ini Dan Mendapat Kecepatan 20% Gratis Pada AI! ~ Prediksi Multi-Token Bebas Pelatihan Membuat LLM 15–26% Lebih Cepat Para peneliti di Qualcomm AI Research telah merilis teknik inferensi terobosan yang secara dramatis mempercepat LLM, tanpa pelatihan ulang, tanpa parameter tambahan, dan nol kehilangan kualitas. Makalah "Prediksi Multi-Token Bebas Pelatihan yang Efisien melalui Penyematan Ruang Penyematan" menunjukkan cara memprediksi beberapa token masa depan secara paralel dengan secara dinamis menyelidiki ruang penyematan model sendiri dengan "token topeng" cerdas. Sorotan Mempercepat • Throughput 15–19% lebih tinggi pada LLaMA3.1-8B, Qwen3, dan model serupa • Peningkatan throughput hingga 26% dengan pengoptimalan sederhana • Contoh: 38,9 → 40,5+ token/detik pada LLaMA3.1-8B • Hingga 40% lebih sedikit lintasan maju model Ini benar-benar plug-and-play dan bekerja pada LLM autoregresif beku sambil menghasilkan output yang identik dengan decoding standar. Mengalahkan garis besar bebas pelatihan lainnya (Decoding Lookahead, Prompt Lookup) sebesar 24% dalam tingkat penerimaan dan throughput • Hingga 40% lebih sedikit lintasan maju model • Output identik lossless dengan decoding normal • Ideal ketika Anda menginginkan LLM yang lebih cepat hari ini tanpa biaya atau kerumitan tambahan Sempurna untuk AI lokal, perangkat edge, aplikasi seluler, obrolan real-time, dan memangkas biaya inferensi cloud. Kami menjalankannya sekarang di semua model dan benar-benar meningkatkan output JouleWork. • PDF: