Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabámos de implementar isto e obtivemos um aumento gratuito de 20% na velocidade da IA!
~
A previsão multi-token sem treino torna os LLMs 15–26% mais rápidos
Pesquisadores da Qualcomm AI Research lançaram uma técnica de inferência inovadora que acelera dramaticamente os LLMs, sem re-treinamento, sem parâmetros extras e sem perda de qualidade.
O artigo “Previsão Multi-Token Eficiente Sem Treino via Probing no Espaço de Embeddings” mostra como prever múltiplos tokens futuros em paralelo, sondando dinamicamente o próprio espaço de embeddings do modelo com “tokens de máscara” inteligentes.
Destaques do Aumento de Velocidade
• 15–19% maior throughput no LLaMA3.1-8B, Qwen3 e modelos similares
• Até 26% de ganhos de throughput com otimizações simples
• Exemplo: 38.9 → 40.5+ tokens/segundo no LLaMA3.1-8B
• Até 40% menos passes de modelo para frente
É completamente plug-and-play e funciona em qualquer LLM autoregressivo congelado, produzindo saídas idênticas à decodificação padrão.
Supera outras linhas de base sem treino (Decodificação Lookahead, Pesquisa de Prompt) em 24% na taxa de aceitação e throughput
• Até 40% menos passes de modelo para frente
• Saídas idênticas sem perda em relação à decodificação normal
• Ideal quando você quer LLMs mais rápidos hoje, sem custo ou complexidade extra
Perfeito para IA local, dispositivos de borda, aplicativos móveis, chat em tempo real e redução de custos de inferência na nuvem.
Estamos a executá-lo agora em todos os modelos e aumentámos absolutamente as saídas do JouleWork.
• PDF:

Top
Classificação
Favoritos
