Acabámos de implementar isto e obtivemos um aumento gratuito de 20% na velocidade da IA! ~ A previsão multi-token sem treino torna os LLMs 15–26% mais rápidos Pesquisadores da Qualcomm AI Research lançaram uma técnica de inferência inovadora que acelera dramaticamente os LLMs, sem re-treinamento, sem parâmetros extras e sem perda de qualidade. O artigo “Previsão Multi-Token Eficiente Sem Treino via Probing no Espaço de Embeddings” mostra como prever múltiplos tokens futuros em paralelo, sondando dinamicamente o próprio espaço de embeddings do modelo com “tokens de máscara” inteligentes. Destaques do Aumento de Velocidade • 15–19% maior throughput no LLaMA3.1-8B, Qwen3 e modelos similares • Até 26% de ganhos de throughput com otimizações simples • Exemplo: 38.9 → 40.5+ tokens/segundo no LLaMA3.1-8B • Até 40% menos passes de modelo para frente É completamente plug-and-play e funciona em qualquer LLM autoregressivo congelado, produzindo saídas idênticas à decodificação padrão. Supera outras linhas de base sem treino (Decodificação Lookahead, Pesquisa de Prompt) em 24% na taxa de aceitação e throughput • Até 40% menos passes de modelo para frente • Saídas idênticas sem perda em relação à decodificação normal • Ideal quando você quer LLMs mais rápidos hoje, sem custo ou complexidade extra Perfeito para IA local, dispositivos de borda, aplicativos móveis, chat em tempo real e redução de custos de inferência na nuvem. Estamos a executá-lo agora em todos os modelos e aumentámos absolutamente as saídas do JouleWork. • PDF: