Na nossa nova pesquisa, apresentamos o AutoJudge — um método de aceleração de inferência que aprende quais tokens são importantes para a resposta. O resultado? Acelerações de 1,5 a 2 vezes em comparação com a decodificação especulativa, e ganhos constantes quando combinado com técnicas avançadas. 🚀
Além disso, leia o tópico com detalhes dos autores do artigo:
Max Ryabinin
Max Ryabinin5/12, 02:02
Entusiasmado por compartilhar nossa pesquisa recente sobre o AutoJudge, uma técnica de decodificação que combina: - Aceleração da inferência através do relaxamento da restrição de correspondência de distribuição - Facilidade de uso e escalabilidade devido a um protocolo de treinamento auto-supervisionado Apresentando no #NeurIPS2025 hoje! (1/9)
Os autores apresentarão o AutoJudge na #NeurIPS2025 em San Diego. Conheça a equipe e saiba mais sobre a abordagem! 🕑4 de Dez, 16:30 PST 🗺️Salão de Exposições C,D,E #2010
2,25K