V našem novém výzkumu představujeme AutoJudge — metodu akcelerace inference, která zjišťuje, které tokeny jsou důležité pro odpověď. Výsledek? 1,5-2násobné zrychlení ve srovnání se spekulativním dekódováním a stabilní zisky v kombinaci s pokročilými technikami. 🚀
Také si přečtěte vlákno s podrobnostmi od autorů článku:
Max Ryabinin
Max Ryabinin5. 12. 02:02
S radostí se podělíme o náš nedávný výzkum AutoJudge, dekódovací techniky, která kombinuje: - Zrychlení inference uvolněním omezení shody rozdělení - Snadnost použití a škálovatelnost díky samořízenému školicímu protokolu Dnes prezentuji na #NeurIPS2025! (1/9)
Autoři představí AutoJudge na #NeurIPS2025 v San Diegu. Seznamte se s týmem a dozvíte se více o tomto přístupu! 🕑4. prosince, 16:30 PST 🗺️Výstavní hala C, D, E #2010
2,22K