Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Analisis benchmark EXO Qwen3-Coder-Next-8bit pada M3 Ultra"
1. Data inti: Konfigurasi Perangkat Keras Inferensi Terdistribusi M3 Ultra (RAM 512GB) • Node tunggal: RAM Apple M3 Ultra 512GB (32 inti CPU, 80 inti GPU)
• Node ganda: 2 × M3 Ultra (agregasi RAM 1024GB) • Model: Qwen3-Coder-Next-8bit (parameter 8B, versi terkuantisasi)
Tolok ukur performa (token/s)

II.
Pesan utama:
1. Pemrosesan Prompt berkembang secara linier dengan jumlah node
• Konteks 0,5K-8K: Puncak node tunggal (60 t/s), node ganda menurun (-3%)
• Penyebab: Manfaat overhead komunikasi terdistribusi > akselerasi komputasi
• Kesimpulan: Konteks kecil tidak perlu didistribusikan
• Konteks 16K-64K: Node ganda mulai mendapat manfaat (+2% hingga +6%)
• Penyebab: KV Cache membutuhkan lebih banyak memori, kemacetan node tunggal
• Kesimpulan: Penalaran terdistribusi konteks besar sangat berharga
2.
Tren kinerja generasi
• Model kecil (8B) + konteks kecil (<32K): Generasi lebih lambat
• Konteks besar (≥32K): Performa mulai meningkatkan wawasan utama
• Alasan: Model 8B memiliki tekanan komputasi rendah, dan kemacetan ada pada bandwidth memori dan Cache KV
3.
API /bangku
• Titik akhir OpenAI standar: cache diaktifkan secara default, menghasilkan hasil pengujian yang salah
• /bench API: Tidak ada streaming, mengembalikan statistik pengukuran server (akurat)
• Temuan utama: Inferensi terdistribusi harus diuji dengan /bench, jika tidak, data tidak valid
III.
Bandingkan dengan Qwen3.5-35B

4.
Kesimpulan teknis
Interval nilai untuk penalaran terdistribusi
• Konteks kecil (<8K): Node tunggal optimal, tetapi node ganda berkurang (overhead komunikasi) • Konteks besar (≥32K): Node ganda mulai mendapat manfaat, peningkatan +6% pada 64K • Konteks 128K+: Membutuhkan beberapa node (mengalami masalah pesan gossipsub 1115KB yang terlalu besar dalam pengujian)
Qwen3-Coder-Next-8bit vs Qwen3.5-35B:

5.
Kemacetan EXO
• Tes konteks 128K gagal: pesan gossipsub terlalu besar (1115KB), dan node perlu dimulai ulang
• Masalah: Lapisan jaringan membatasi skalabilitas inferensi terdistribusi
• Resolusi: Sharding pesan perlu dioptimalkan atau protokol komunikasi yang berbeda digunakan
6.
Perbandingan model ekonomi
Opsi A:
M3 Ultra 512GB (Node Tunggal)
• Biaya: $ 2000-3000
• Kinerja: 60 t/s (<8K) → 48 t/s (64K)
• Berlaku: Konteks besar (≥32K), satu simpul sudah cukup
Skenario B:
M3 Ultra × 2 (Node Ganda)
• Biaya: $ 4000-6000
• Kinerja: 59-51 t/s (+6% vs single node, konteks 64K saja)
• Berlaku: Konteks yang sangat besar (≥128K) dengan memori yang tidak mencukupi pada satu node
Skenario C:
RTX 3090 (kartu tunggal)
• Biaya: $ 800-1000 (bekas)
• Kinerja: 112 t / s (tetap, Qwen3.5-35B)
• Cocok untuk: konteks kecil (<64K), layak secara ekonomis

VII.
📌 Kesimpulan inti
1. Qwen3-Coder-Next-8bit cocok untuk inferensi terdistribusi konteks besar (≥32K)
Manfaat: Dapat diskalakan ke konteks tak terbatas (memori agregat multi-simpul)
Kekurangan: Performa konteks kecil tidak sebaik GPU kartu tunggal, dan siklus ROI panjang
2. Qwen3.5-35B (RTX 3090) cocok untuk penalaran ekonomi konteks kecil (<64K)
Keuntungan: 112 t / s kinerja tinggi, pengembalian ROI dalam 6 bulan
Kekurangan: Batas kartu tunggal (VRAM 24GB), tidak dapat diperluas menjadi 128K+
3. Masih ada kemacetan dalam penalaran terdistribusi EXO
Masalah: Pesan gossipsub terlalu besar (1115KB) dan node perlu dimulai ulang
Solusi: Optimalkan lapisan jaringan atau beralih ke protokol komunikasi yang berbeda
VIII.
Perbandingan prioritas investasi
Mac Studio M5 (dengan chip M5 Ultra) diharapkan akan dirilis pada bulan Maret-Juni 2026. Dari segi kinerja, dibandingkan dengan M3 Ultra, pemrosesan prompt (TTFT) M5 Ultra dapat dipercepat 2-4 kali lipat, dan kecepatan pembuatan (token/dtk) meningkat sekitar 20-30% (bandwidth memori ditingkatkan dari 800GB/dtk ke tingkat yang lebih tinggi, dikombinasikan dengan Akselerator Saraf untuk setiap inti GPU). Untuk versi terkuantisasi yang mirip dengan model Qwen, M5 Ultra dapat mendukung konteks yang lebih besar (token 64K+) untuk mencapai throughput yang lebih tinggi dalam tolok ukur (misalnya, model MoE besar hingga 150+ tok/s). Mengingat biaya perangkat kerasnya serupa (sekitar $4.000 naik) tetapi kinerjanya meningkat, ROI diperkirakan akan dipersingkat menjadi 8-12 bulan, yang cocok untuk skenario pengembangan AI intensitas tinggi dan memiliki indeks rekomendasi keseluruhan yang lebih tinggi.

3,33K
Teratas
Peringkat
Favorit
