Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Z radością dzielimy się naszymi najnowszymi badaniami na temat AutoJudge, techniki dekodowania, która łączy:
- Przyspieszenie wnioskowania poprzez złagodzenie ograniczenia dopasowania rozkładu
- Łatwość użycia i skalowalność dzięki protokołowi samonadzorowanego szkolenia
Prezentacja na #NeurIPS2025 dzisiaj! (1/9)

Stwierdzamy, że możemy automatycznie wydobywać etykiety dla klasyfikatora akceptacji. Konkretnie, bierzemy zbiór danych i uruchamiamy generacje modeli docelowych i roboczych.
Następnie sprawdzamy wszystkie niepasujące tokeny między modelami docelowymi a roboczymi. Jeśli zachowanie tokenu z modelu roboczego skutkuje błędną odpowiedzią, jest oznaczany jako ważny (3/9)

Używając tych etykiet, możemy wytrenować prosty klasyfikator, aby znaleźć ważne tokeny w czasie wnioskowania.
Jeśli oryginalne spekulacyjne dekodowanie odrzuciłoby token, dajemy mu drugą szansę, pytając klasyfikator. W przypadku nieważnych tokenów kontynuujemy generację, ale dla innych rozpoczynamy nowy spekulacyjny cykl (4/9)

Nasze główne oceny AutoJudge koncentrują się na zadaniach, dla których łatwo jest zmierzyć poprawność odpowiedzi — programowanie (LiveCodeBench) i matematyka (GSM8K).
Dzięki parom modeli, takim jak 8B/70B, możemy osiągnąć do 40 zaakceptowanych tokenów na cykl przy <1% spadku dokładności! (5/9)

AutoJudge łatwo integruje się również z otwartymi frameworkami inferencyjnymi, takimi jak vLLM. Poprawa wskaźnika akceptacji przekłada się na przyspieszenie end-to-end: jeśli poświęcimy 2% dokładności, zyskujemy prawie 50% więcej tokenów na sekundę! (6/9)

Analiza adnotacji dla ważnych tokenów ujawnia ciekawy wzór: wyraźne błędy są oznaczane jako próbki negatywne (=> konieczność regeneracji), podczas gdy semantycznie równoważne tokeny pozwalają na kontynuację spekulacji (7/9)

Aby dowiedzieć się więcej, sprawdź:
Dokument:
Kod:
Post na blogu:
Wstępnie obliczone aktywacje dla GSM8K i LiveCodeBench:
(8/9)
Ta praca została przeprowadzona przez moich niesamowitych współautorów @garipovroma, @MightyNeighbour, Ivana Ermakova, Ruslana Svirschevskiego i Vage Egiazarian.
Zespół jest w San Diego na NeurIPS w tym tygodniu — przyjdź i powiedz cześć dzisiaj na sesji plakatowej!
16:30, plakat #2010 (9/9)
2,51K
Najlepsze
Ranking
Ulubione

