Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Рады поделиться нашим недавним исследованием о AutoJudge, технике декодирования, которая сочетает в себе:
- Ускорение вывода за счет ослабления ограничения соответствия распределения
- Простота использования и масштабируемость благодаря протоколу самообучения
Презентация на #NeurIPS2025 сегодня! (1/9)

Мы обнаруживаем, что можем автоматически извлекать метки для классификатора принятия. В частности, мы берем набор данных и запускаем генерацию целевых и черновых моделей.
Затем мы проверяем все несовпадающие токены между целевыми и черновыми моделями. Если сохранение токена из черновой модели приводит к неправильному ответу, он помечается как важный (3/9)

Используя эти метки, мы можем обучить простой классификатор для поиска важных токенов во время вывода.
Если оригинальное спекулятивное декодирование отклоняет токен, мы даем ему второй шанс, спрашивая классификатор. Для неважных токенов мы продолжаем генерацию, но для других мы начинаем новый спекулятивный цикл (4/9)

Наши основные оценки AutoJudge сосредоточены на задачах, для которых легко измерить правильность ответов — программирование (LiveCodeBench) и математика (GSM8K).
С такими парами моделей, как 8B/70B, мы можем достичь до 40 принятых токенов за цикл с <1% падением точности! (5/9)

AutoJudge также легко интегрируется с открытыми фреймворками вывода, такими как vLLM. Улучшения коэффициента принятия приводят к увеличению скорости от начала до конца: если мы пожертвуем 2% точности, мы получаем почти на 50% больше токенов в секунду! (6/9)

Изучение аннотаций для важных токенов выявляет любопытный паттерн: явные ошибки помечаются как отрицательные образцы (=> необходимо регенерировать), в то время как семантически эквивалентные токены позволяют спекуляции продолжаться (7/9)

Чтобы узнать больше, ознакомьтесь с:
Документ:
Код:
Запись в блоге:
Предварительно вычисленные активации для GSM8K и LiveCodeBench:
(8/9)
Эту работу возглавили мои замечательные соавторы @garipovroma, @MightyNeighbour, Иван Ермаков, Руслан Свирщевский и Ваге Эгиазарян.
Команда находится в Сан-Диего на NeurIPS на этой неделе — приходите поздороваться сегодня на сессии постеров!
16:30, постер #2010 (9/9)
2,52K
Топ
Рейтинг
Избранное

