Właśnie to wdrożyliśmy i uzyskaliśmy darmowy wzrost prędkości o 20% w AI! ~ Predykcja wielotokenowa bez treningu sprawia, że LLM-y są o 15–26% szybsze Naukowcy z Qualcomm AI Research opracowali przełomową technikę wnioskowania, która dramatycznie przyspiesza LLM-y, bez retreningu, dodatkowych parametrów i utraty jakości. Artykuł „Efektywna predykcja wielotokenowa bez treningu za pomocą badania przestrzeni osadzeń” pokazuje, jak przewidywać wiele przyszłych tokenów równolegle, dynamicznie badając własną przestrzeń osadzeń modelu za pomocą inteligentnych „tokenów maskujących”. Najważniejsze osiągnięcia przyspieszenia • 15–19% wyższa przepustowość na LLaMA3.1-8B, Qwen3 i podobnych modelach • Do 26% zysków w przepustowości przy prostych optymalizacjach • Przykład: 38.9 → 40.5+ tokenów/sekundę na LLaMA3.1-8B • Do 40% mniej przejść modelu do przodu Jest to całkowicie plug-and-play i działa na każdym zamrożonym autoregresywnym LLM, produkując identyczne wyniki jak standardowe dekodowanie. Przewyższa inne bazowe metody bez treningu (dekodowanie z wyprzedzeniem, wyszukiwanie podpowiedzi) o 24% w wskaźniku akceptacji i przepustowości • Do 40% mniej przejść modelu do przodu • Bezstratne identyczne wyniki w porównaniu do normalnego dekodowania • Idealne, gdy chcesz szybszych LLM-ów już dziś, bez dodatkowych kosztów czy złożoności Idealne do lokalnego AI, urządzeń brzegowych, aplikacji mobilnych, czatu w czasie rzeczywistym i obniżania kosztów wnioskowania w chmurze. Uruchamiamy to teraz na wszystkich modelach i zdecydowanie zwiększyliśmy wyniki JouleWork. • PDF: