DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Tocmai am implementat asta și am primit o accelerare gratuită de 20% la AI! ~ Predicția multi-token fără antrenament face ca LLM-urile să fie cu 15–26% mai rapide Cercetătorii de la Qualcomm AI Research au lansat o tehnică de inferență revoluționară care accelerează dramatic LLM-urile, fără nicio reantrenare, fără parametri suplimentari și fără pierdere de calitate. Articolul "Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing" arată cum să prezici în paralel mai multe jetoane viitoare prin sondarea dinamică a propriului spațiu de embedding al modelului cu "mask tokens" inteligente. Repere ale accelerării • Un debit de 15–19% mai mare pe modelele LLaMA3.1-8B, Qwen3 și similare • Câștiguri de throughput de până la 26% cu optimizări simple • Exemplu: 38,9 → 40,5+ jetoane pe secundă pe LLaMA3.1-8B • Până la 40% mai puține treceri înainte la model Este complet plug-and-play și funcționează pe orice LLM autoregresiv înghețat, producând ieșiri identice cu decodarea standard. Depășește alte baze fără instruire (Lookahead Decoding, Prompt Lookup) cu 24% în rata de acceptare și throughput • Până la 40% mai puține treceri înainte la model • Ieșiri identice fără pierderi cu decodarea normală • Ideal când vrei LLM-uri mai rapide astăzi, fără costuri suplimentare sau complexitate Perfect pentru AI local, dispozitive edge, aplicații mobile, chat în timp real și reducerea costurilor de inferență în cloud. Îl rulăm acum pe toate modelele și am crescut cu siguranță ieșirile JouleWork. • PDF:

Limită superioară

Clasament

Favorite