Enthousiast om ons recente onderzoek naar AutoJudge te delen, een decoderingstechniek die combineert: - Versnelling van inferentie door de beperking van de distributieovereenkomst te versoepelen - Gebruiksgemak en schaalbaarheid dankzij een zelfgestuurd trainingsprotocol Vandaag presenteren op #NeurIPS2025! (1/9)
We ontdekken dat we de labels voor de acceptatieclassificator automatisch kunnen mijnen. Specifiek nemen we een dataset en voeren we doel- en conceptmodelgeneraties uit. Vervolgens controleren we alle niet-overeenkomende tokens tussen de doel- en conceptmodellen. Als het behouden van het token uit het conceptmodel resulteert in het verkeerde antwoord, wordt het gemarkeerd als belangrijk (3/9)
Met deze labels kunnen we een eenvoudige classifier trainen om belangrijke tokens te vinden tijdens de inferentietijd. Als de oorspronkelijke speculatieve decodering een token zou afwijzen, geven we het een tweede kans door de classifier te raadplegen. Voor niet-belangrijke tokens gaan we door met de generatie, maar voor andere starten we een nieuwe speculatieve cyclus (4/9)
Onze belangrijkste evaluaties van AutoJudge richten zich op taken waarvoor het gemakkelijk is om de juistheid van antwoorden te meten — programmeren (LiveCodeBench) en wiskunde (GSM8K). Met modelparen zoals 8B/70B kunnen we tot 40 geaccepteerde tokens per cyclus bereiken met een <1% verlies in nauwkeurigheid! (5/9)
AutoJudge integreert ook eenvoudig met open-source inferentiekaders zoals vLLM. De verbeteringen in de acceptatiegraad vertalen zich naar end-to-end versnellingen: als we 2% van de nauwkeurigheid opofferen, krijgen we bijna 50% meer tokens per seconde! (6/9)
Het inspecteren van de annotaties voor belangrijke tokens onthult een curieuze patroon: duidelijke fouten worden gemarkeerd als negatieve monsters (=> moeten worden gegenereerd), terwijl semantisch equivalente tokens de speculatie toestaan om door te gaan (7/9)
Om meer te leren, kijk hier: Paper: Code: Blogpost: Vooraf berekende activaties voor GSM8K & LiveCodeBench: (8/9)
Dit werk werd geleid door mijn geweldige co-auteurs @garipovroma, @MightyNeighbour, Ivan Ermakov, Ruslan Svirschevski en Vage Egiazarian. Het team is deze week in San Diego voor NeurIPS — kom vandaag hallo zeggen bij de poster sessie! 16:30, poster #2010 (9/9)
2,51K