Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Toteutimme juuri tämän ja saimme ilmaisen 20 % nopeutuksen tekoälyyn!
~
Koulutukseton monitoken-ennuste tekee LLM:istä 15–26 % nopeampia
Qualcomm AI Researchin tutkijat ovat julkaisseet läpimurtopäättelytekniikan, joka nopeuttaa merkittävästi LLM:ää ilman uudelleenkoulutusta, ilman ylimääräisiä parametreja eikä lainkaan laadun heikkenemistä.
Artikkeli "Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing" osoittaa, miten ennustaa useita tulevia tokeneita rinnakkain tutkimalla dynaamisesti mallin omaa upotustilaa älykkäillä "mask-tokeneilla".
Nopeuden kohokohdat
• 15–19 % suurempi läpäisykyky LLaMA3.1-8B-, Qwen3- ja vastaavilla malleilla
• Jopa 26 % läpimenon kasvu yksinkertaisilla optimoinneilla
• Esimerkki: 38,9 → 40,5+ tokenia/sekunti LLaMA3.1-8B:ssä
• Jopa 40 % vähemmän mallin eteenpäin suuntautuvia syöttöjä
Se on täysin plug-and-play ja toimii millä tahansa jäätyneellä autoregressiivisella LLM:llä samalla kun tuottaa identtiset ulostulot kuin tavallinen dekoodaus.
Voittaa muut koulutusvapaat lähtötasot (Lookahead Dekoodaus, Prompt Lookup) hyväksymisprosentissa ja läpimenossa 24 %
• Jopa 40 % vähemmän mallin eteenpäin suuntautuvia syöttöjä
• Häviöttömät identtiset ulostulot normaalin dekoodauksen kanssa
• Ihanteellinen, kun haluat nopeampia LLM-levyjä tänään ilman lisäkustannuksia tai monimutkaisuutta
Täydellinen paikalliselle tekoälylle, reunalaitteille, mobiilisovelluksille, reaaliaikaiselle chatille ja pilvipäättelykustannusten leikkaamiselle.
Meillä on nyt käytössä kaikilla malleilla ja JouleWorkin tulokset ovat selvästi kasvaneet.
• PDF:

Johtavat
Rankkaus
Suosikit
