Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
《Analiza benchmarku EXO Qwen3-Coder-Next-8bit na M3 Ultra》
I. Kluczowe dane: M3 Ultra (512GB RAM) konfiguracja sprzętowa do rozproszonego wnioskowania • Pojedynczy węzeł: Apple M3 Ultra 512GB RAM (32 rdzenie CPU, 80 rdzeni GPU)
• Podwójny węzeł: 2 × M3 Ultra (1024GB RAM agregowane) • Model: Qwen3-Coder-Next-8bit (8B parametrów, wersja skwantyzowana)
Wyniki benchmarku (tokens/s)

II.
Kluczowe informacje:
1. Przetwarzanie promptów rozszerza się liniowo wraz z liczbą węzłów
• 0.5K-8K kontekst: pojedynczy węzeł osiągnął szczyt (60 t/s), a dwa węzły wręcz spadły (-3%)
• Powód: koszty komunikacji rozproszonej > zyski z przyspieszenia obliczeń
• Wniosek: mały kontekst nie wymaga rozproszenia
• 16K-64K kontekst: dwa węzły zaczynają przynosić korzyści (+2% do +6%)
• Powód: pamięć podręczna KV wymaga więcej pamięci, wąskie gardło pojedynczego węzła
• Wniosek: duży kontekst ma wartość w rozproszonym wnioskowaniu
2.
Trendy wydajności generacji
• Mały model (8B) + mały kontekst (<32K): generacja jest wolna
• Duży kontekst (≥32K): wydajność zaczyna się poprawiać, kluczowe spostrzeżenia
• Powód: model 8B ma małe obciążenie obliczeniowe, wąskie gardło w przepustowości pamięci i pamięci podręcznej KV
3.
Znaczenie API /bench
• Standardowy punkt końcowy OpenAI: domyślnie włączona pamięć podręczna, co prowadzi do błędnych wyników testów
• API /bench: brak strumieniowania, zwraca statystyki pomiarowe serwera (dokładne)
• Kluczowe odkrycie: testowanie rozproszonego wnioskowania musi odbywać się za pomocą /bench, w przeciwnym razie dane są nieważne.
Trzy,
porównanie z Qwen3.5-35B

Cztery,
Wnioski techniczne
Zakres wartości rozproszonego wnioskowania
• Mały kontekst (<8K): optymalny dla jednego węzła, a dla dwóch węzłów wręcz spadek (koszty komunikacji) • Duży kontekst (≥32K): korzyści zaczynają się przy dwóch węzłach, przy 64K wzrost o +6% • Kontekst 128K+: wymaga wielu węzłów (napotkano problem zbyt dużych wiadomości gossipsub o rozmiarze 1115KB)
Qwen3-Coder-Next-8bit vs Qwen3.5-35B:

Pięć,
Wąskie gardło EXO
• Test kontekstu 128K nie powiódł się: wiadomość gossipsub jest zbyt duża (1115KB), konieczne jest ponowne uruchomienie węzła
• Problem: ograniczenia warstwy sieciowej ograniczają skalowalność rozproszonego wnioskowania
• Rozwiązanie: konieczna jest optymalizacja fragmentacji wiadomości lub zmiana na inny protokół komunikacyjny
VI.
Porównanie modeli ekonomicznych
Opcja A:
M3 Ultra 512GB (jedno węzeł)
• Koszt: 2000-3000 $
• Wydajność: 60 t/s (<8K) → 48 t/s (64K)
• Zastosowanie: duży kontekst (≥32K), wystarczy jeden węzeł
Opcja B:
M3 Ultra × 2 (dwa węzły)
• Koszt: 4000-6000 $
• Wydajność: 59-51 t/s (+6% w porównaniu do jednego węzła, tylko 64K kontekst)
• Zastosowanie: bardzo duży kontekst (≥128K), pamięć jednego węzła niewystarczająca
Opcja C:
RTX 3090 (jedna karta)
• Koszt: 800-1000 $ (używana)
• Wydajność: 112 t/s (stała, Qwen3.5-35B)
• Zastosowanie: mały kontekst (<64K), ekonomicznie opłacalne

Siedem,
📌 Kluczowe wnioski
1. Qwen3-Coder-Next-8bit nadaje się do dużego kontekstu (≥32K) rozproszonego wnioskowania
Zalety: możliwość rozszerzenia do nieskończonego kontekstu (agregacja pamięci w wielu węzłach)
Wady: mały kontekst ma gorszą wydajność niż pojedyncza karta GPU, długi okres ROI
2. Qwen3.5-35B (RTX 3090) nadaje się do małego kontekstu (<64K) ekonomicznego wnioskowania
Zalety: 112 t/s wysoka wydajność, ROI zwrot z inwestycji w 6 miesięcy
Wady: limit na pojedynczej karcie (24GB VRAM), brak możliwości rozszerzenia do 128K+
3. Rozproszone wnioskowanie EXO wciąż ma wąskie gardła
Problem: zbyt duża wiadomość gossipsub (1115KB), konieczność ponownego uruchomienia węzła
Rozwiązanie: optymalizacja warstwy sieciowej lub zmiana na inny protokół komunikacyjny
Osiem,
Porównanie priorytetów inwestycyjnych
Mac Studio M5 (z chipem M5 Ultra) ma być wydany w okresie od marca do czerwca 2026 roku. Pod względem wydajności, w zadaniach wnioskowania LLM, w porównaniu do M3 Ultra, przetwarzanie wskazówek (TTFT) w M5 Ultra może osiągnąć przyspieszenie od 2 do 4 razy, a prędkość generowania (tokens/s) wzrasta o około 20-30% (przepustowość pamięci wzrasta z 800 GB/s do wyższego poziomu, w połączeniu z Neural Accelerator dla każdego rdzenia GPU). Dla skwantyzowanej wersji modelu podobnego do Qwen, M5 Ultra może wspierać większy kontekst (64K+ tokens), osiągając wyższą przepustowość w testach porównawczych (np. duże modele MoE osiągają 150+ tok/s). Biorąc pod uwagę podobne koszty sprzętu (około 4000 USD) ale z poprawioną wydajnością, ROI ma być skrócone do 8-12 miesięcy, co czyni go odpowiednim dla intensywnych scenariuszy rozwoju AI, a ogólny wskaźnik rekomendacji jest wyższy.

3,32K
Najlepsze
Ranking
Ulubione
