Bunu yeni uyguladık ve yapay zekada ücretsiz %20 hızlandırma aldık! ~ Eğitimsiz Çok Token Tahmini LLM'leri %15–26 Daha Hızlı Hale Getirir Qualcomm AI Research araştırmacıları, sıfır yeniden eğitim, sıfır ekstra parametre ve sıfır kalite kaybı ile LLM'leri dramatik şekilde hızlandıran çığır açan bir çıkarım tekniği yayımladı. "Verimli Eğitimsiz Çok Token Tahmini Gömülü-Alan Araştırması Vasilesi" makalesi, modelin kendi gömülü alanını akıllı "maske tokenlar" ile dinamik olarak inceleyerek birden fazla gelecekteki tokenı paralel olarak nasıl tahmin edileceğini gösteriyor. Hızlandırma Öne Çıkıntıları • LLaMA3.1-8B, Qwen3 ve benzeri modellerde %15–19 daha yüksek veri verimliliği • Basit optimizasyonlarla %26'ya kadar aktarım artışı elde edilir • Örnek: LLaMA3.1-8B üzerinde saniyede 38.9 → 40.5+ jeton • Model ileri geçiş sayısı %40'a kadar azaldı Tamamen tak-çalıştır ve herhangi bir donmuş otoregressiv LLM'de çalışırken standart kod çözmeyle aynı çıkışlar üretir. Diğer eğitimsiz temel çizgileri (Bakarak Kodlama, İstem Araştırması) kabul oranı ve verimlilik açısından %24 ile geride • Model ileri geçiş sayısı %40'a kadar azaldı • Kayıpsız ve normal kod çözme ile aynı çıktılar • Bugün ekstra maliyet veya karmaşıklık olmadan daha hızlı LLM'ler istediğinizde ideal. Yerel yapay zeka, kenar cihazlar, mobil uygulamalar, gerçek zamanlı sohbet ve bulut çıkarımı maliyetlerini düşürmek için mükemmel. Şu anda tüm modellerde çalıştırıyoruz ve JouleWork çıktılarını kesinlikle artırdık. • PDF: