Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI właśnie wdrożyło GPT-5.3-Codex-Spark na sprzęcie Cerebras o skali wafla, osiągając 1,000+ tokenów/sekundę — około 10-20x
szybciej niż wnioskowanie na GPU.
To nie jest stopniowa poprawa; to
fundamentalna zmiana architektoniczna, która po raz pierwszy umożliwia współpracę AI w czasie rzeczywistym.
---
WĄSKIE GARDŁO, O KTÓRYM NIKT NIE MÓWI
Oto gorzki sekret wnioskowania AI: twój klaster GPU spędza większość czasu *nie obliczając*.
Kiedy uruchamiasz duży model językowy na GPU NVIDIA, rzeczywiste mnożenia macierzy są szybkie. To, co cię zabija, to:
1. Komunikacja między GPU — Podział modelu o parametrach 175B+ na 8 GPU oznacza ciągłe przestawianie danych
2. Przepustowość pamięci — HBM jest szybkie, ale wciąż jest poza chipem
3. Narzut związany z pakowaniem — GPU optymalizują przepustowość, a nie opóźnienie, więc czekają na pakowanie żądań
Rezultat? Nawet na najnowocześniejszych H100, patrzysz na 50-150 tokenów/sekundę dla modeli granicznych. To w porządku dla asynchronicznych obciążeń. To straszne dla interakcji w czasie rzeczywistym.
---
CEREBRAS: JEDEN WAFEL, ABY WSZYSTKIMI RZĄDZIĆ
Cerebras przyjęło radykalnie inne podejście: nie buduj chipów, buduj wafle.
Specyfikacje WSE-3 (Wafer Scale Engine 3) są oszałamiające:
WSE-3 NVIDIA B200 Współczynnik
Rozmiar die 46,255 mm² ~800 mm² 57x...


Najlepsze
Ranking
Ulubione
