《Análise do benchmark EXO do Qwen3-Coder-Next-8bit no M3 Ultra》 I. Dados principais: M3 Ultra (512GB RAM) Configuração de hardware para inferência distribuída • Nó único: Apple M3 Ultra 512GB RAM (32 núcleos de CPU, 80 núcleos de GPU) • Dois nós: 2 × M3 Ultra (1024GB RAM agregados) • Modelo: Qwen3-Coder-Next-8bit (8B parâmetros, versão quantizada) Benchmark de desempenho (tokens/s)
II, Informações-chave: 1. Processamento de Prompt expande linearmente com o número de nós • 0.5K-8K contexto: um único nó já atingiu o pico (60 t/s), dois nós na verdade diminuíram (-3%) • Razão: custo de comunicação distribuída > ganho de aceleração computacional • Conclusão: pequeno contexto não precisa de distribuição • 16K-64K contexto: dois nós começam a se beneficiar (+2% a +6%) • Razão: KV Cache precisa de mais memória, gargalo em um único nó • Conclusão: grande contexto de inferência distribuída tem valor 2. Tendência de desempenho de Geração • Modelo pequeno (8B) + pequeno contexto (<32K): Geração mais lenta • Grande contexto (≥32K): desempenho começa a melhorar com insights chave • Razão: modelo 8B tem baixa pressão computacional, gargalo na largura de banda da memória e KV Cache 3. Importância da API /bench • Endpoint padrão da OpenAI: cache ativado por padrão, levando a resultados de teste incorretos • API /bench: sem streaming, retorna estatísticas de medição do servidor (precisas) • Descoberta chave: testes de inferência distribuída devem usar /bench, caso contrário, os dados são inválidos
Três, comparado com o Qwen3.5-35B
Quatro, Conclusão técnica Intervalo de valor da inferência distribuída • Pequeno context (<8K): ótimo para um único nó, dois nós na verdade diminuem (custo de comunicação) • Grande context (≥32K): dois nós começam a se beneficiar, 64K aumenta +6% • Contexto 128K+: precisa de múltiplos nós (encontramos um problema com mensagens gossipsub de 1115KB muito grandes durante os testes) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
V. Gargalo do EXO • Falha no teste de contexto de 128K: mensagem gossipsub muito grande (1115KB), é necessário reiniciar o nó • Problema: a camada de rede limita a escalabilidade da inferência distribuída • Solução: é necessário otimizar a fragmentação de mensagens ou usar outro protocolo de comunicação
Seis, Comparação de Modelos Econômicos Opção A: M3 Ultra 512GB (nó único) • Custo: $2000-3000 • Desempenho: 60 t/s (<8K) → 48 t/s (64K) • Aplicável: grande contexto (≥32K), nó único é suficiente Opção B: M3 Ultra × 2 (dois nós) • Custo: $4000-6000 • Desempenho: 59-51 t/s (+6% vs nó único, apenas contexto 64K) • Aplicável: contexto super grande (≥128K), memória do nó único insuficiente Opção C: RTX 3090 (placa única) • Custo: $800-1000 (usado) • Desempenho: 112 t/s (fixo, Qwen3.5-35B) • Aplicável: pequeno contexto (<64K), viável economicamente
Sete, 📌 Conclusões principais 1. Qwen3-Coder-Next-8bit é adequado para inferência distribuída em grandes contextos (≥32K) Vantagens: pode ser escalado para contextos infinitos (agregação de memória em múltiplos nós) Desvantagens: desempenho em contextos pequenos não é tão bom quanto em GPU de placa única, ciclo de ROI longo 2. Qwen3.5-35B (RTX 3090) é adequado para inferência econômica em pequenos contextos (<64K) Vantagens: 112 t/s de alto desempenho, ROI de 6 meses para retorno Desvantagens: limite de placa única (24GB VRAM), não pode ser escalado para 128K+ 3. A inferência distribuída da EXO ainda tem gargalos Problema: mensagens gossipsub muito grandes (1115KB), necessidade de reiniciar nós Solução: otimizar a camada de rede ou mudar para outro protocolo de comunicação
Oitavo, Comparação de prioridades de investimento O Mac Studio M5 (equipado com o chip M5 Ultra) está previsto para ser lançado entre março e junho de 2026. Em termos de desempenho, nas tarefas de inferência LLM, em comparação com o M3 Ultra, o processamento de prompts do M5 Ultra pode alcançar uma aceleração de 2 a 4 vezes, com um aumento de velocidade de geração (tokens/s) de cerca de 20 a 30% (a largura de banda de memória aumenta de 800GB/s para níveis mais altos, combinada com o Neural Accelerator de cada núcleo GPU). Para versões quantizadas de modelos semelhantes ao Qwen, o M5 Ultra pode suportar contextos maiores (64K+ tokens), alcançando maior taxa de transferência em testes de benchmark (como modelos MoE grandes que atingem 150+ tok/s). Considerando que o custo do hardware é semelhante (cerca de $4000) mas com um aumento de desempenho, o ROI é previsto para ser reduzido para 8-12 meses, adequado para cenários de desenvolvimento de IA de alta intensidade, com um índice de recomendação geral mais alto.
3,32K