Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie to wdrożyliśmy i uzyskaliśmy darmowy wzrost prędkości o 20% w AI!
~
Predykcja wielotokenowa bez treningu sprawia, że LLM-y są o 15–26% szybsze
Naukowcy z Qualcomm AI Research opracowali przełomową technikę wnioskowania, która dramatycznie przyspiesza LLM-y, bez retreningu, dodatkowych parametrów i utraty jakości.
Artykuł „Efektywna predykcja wielotokenowa bez treningu za pomocą badania przestrzeni osadzeń” pokazuje, jak przewidywać wiele przyszłych tokenów równolegle, dynamicznie badając własną przestrzeń osadzeń modelu za pomocą inteligentnych „tokenów maskujących”.
Najważniejsze osiągnięcia przyspieszenia
• 15–19% wyższa przepustowość na LLaMA3.1-8B, Qwen3 i podobnych modelach
• Do 26% zysków w przepustowości przy prostych optymalizacjach
• Przykład: 38.9 → 40.5+ tokenów/sekundę na LLaMA3.1-8B
• Do 40% mniej przejść modelu do przodu
Jest to całkowicie plug-and-play i działa na każdym zamrożonym autoregresywnym LLM, produkując identyczne wyniki jak standardowe dekodowanie.
Przewyższa inne bazowe metody bez treningu (dekodowanie z wyprzedzeniem, wyszukiwanie podpowiedzi) o 24% w wskaźniku akceptacji i przepustowości
• Do 40% mniej przejść modelu do przodu
• Bezstratne identyczne wyniki w porównaniu do normalnego dekodowania
• Idealne, gdy chcesz szybszych LLM-ów już dziś, bez dodatkowych kosztów czy złożoności
Idealne do lokalnego AI, urządzeń brzegowych, aplikacji mobilnych, czatu w czasie rzeczywistym i obniżania kosztów wnioskowania w chmurze.
Uruchamiamy to teraz na wszystkich modelach i zdecydowanie zwiększyliśmy wyniki JouleWork.
• PDF:

Najlepsze
Ranking
Ulubione
