Nella nostra nuova ricerca, presentiamo AutoJudge — un metodo di accelerazione dell'inferenza che apprende quali token sono importanti per la risposta. Il risultato? Aumenti di velocità da 1,5 a 2 volte rispetto al decoding speculativo, e guadagni costanti quando combinato con tecniche avanzate. 🚀
Inoltre, leggi il thread con i dettagli degli autori del documento:
Max Ryabinin
Max Ryabinin5 dic, 02:02
Siamo entusiasti di condividere la nostra recente ricerca su AutoJudge, una tecnica di decodifica che combina: - Accelerazione dell'inferenza grazie al rilassamento del vincolo di corrispondenza della distribuzione - Facilità d'uso e scalabilità grazie a un protocollo di addestramento auto-supervisionato Presentiamo oggi a #NeurIPS2025! (1/9)
Gli autori presenteranno AutoJudge al #NeurIPS2025 a San Diego. Incontra il team e scopri di più sull'approccio! 🕑4 dicembre, 16:30 PST 🗺️Sala Esposizioni C,D,E #2010
2,25K