Em nossa nova pesquisa, apresentamos o AutoJudge — um método de aceleração de inferência que aprende quais tokens são importantes para a resposta. O resultado? Acelerações de 1,5 a 2x em comparação com decodificação especulativa, e ganhos constantes quando combinados com técnicas avançadas. 🚀
Além disso, leia o tópico com detalhes dos autores do artigo:
Max Ryabinin
Max Ryabinin5 de dez., 02:02
Animado em compartilhar nossa pesquisa recente sobre o AutoJudge, uma técnica de decodificação que combina: - Aceleração da inferência por meio do relaxamento da restrição de correspondência de distribuição - Facilidade de uso e escalabilidade devido a um protocolo de treinamento auto-supervisionado Apresentando no #NeurIPS2025 hoje! (1/9)
Os autores apresentarão o AutoJudge em #NeurIPS2025 em San Diego. Conheça a equipe e saiba mais sobre a abordagem! 🕑4 de dez, 16h30 PST 🗺️Salão de Exposições C,D,E #2010
2,25K