Suntem încântați să împărtășim cercetările noastre recente despre AutoJudge, o tehnică de decodare care combină: - Accelerarea inferenței prin relaxarea constrângerii de potrivire a distribuției - Ușurință în utilizare și scalabilitate datorită unui protocol de antrenament auto-supravegheat Prezentez la #NeurIPS2025 astăzi! (1/9)
Descoperim că putem extrage automat etichetele pentru clasificatorul de acceptare. Mai exact, luăm un set de date și rulăm generații de modele țintă și draft. Apoi, verificăm toate jetoanele care nu se potrivesc între modelele țintă și cele de draft. Dacă păstrarea tokenului din modelul de draft duce la un răspuns greșit, acesta este marcat ca important (3/9)
Folosind aceste etichete, putem antrena un clasificator simplu pentru a găsi token-uri importante în momentul inferenței. Dacă decodarea speculativă originală ar respinge un token, îi dăm o a doua șansă întrebând clasificatorul. Pentru tokenurile neimportante, continuăm generarea, dar pentru altele începem un nou ciclu speculativ (4/9)
Principalele noastre evaluări ale AutoJudge se concentrează pe sarcini pentru care este ușor de măsurat corectitudinea răspunsurilor — programare (LiveCodeBench) și matematică (GSM8K). Cu perechi de modele precum 8B/70B, putem obține până la 40 de tokenuri acceptate pe ciclu cu o acuratețe de <1%! (5/9)
AutoJudge se integrează ușor și cu cadre de inferență open-source, cum ar fi vLLM. Îmbunătățirile ratei de acceptare se traduc prin accelerări de la un capăt la altul: dacă schimbăm 2% din acuratețe, obținem aproape 50% mai multe tokenuri pe secundă! (6/9)
Inspectarea adnotărilor pentru jetoanele importante dezvăluie un tipar curios: erorile clare sunt marcate ca mostre negative (=> nevoie de regenerare), în timp ce jetoanele semantic echivalente permit continuarea speculației (9/7)
Pentru a afla mai multe, consultați: Hârtie: Cod: Postare pe blog: Activări precomputate pentru GSM8K și LiveCodeBench: (8/9)
Această lucrare a fost condusă de coautorii mei minunați @garipovroma, @MightyNeighbour, Ivan Ermakov, Ruslan Svirschevski și Vage Egiazarian. Echipa este în San Diego săptămâna aceasta pentru NeurIPS — veniți să ne salutați astăzi la sesiunea de postere! 16:30, postare #2010 (9/9)
2,5K