Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI právě nasadil GPT-5.3-Codex-Spark na hardware Cerebras ve velikosti waferů, dosahujíc 1 000+ tokenů za sekundu — přibližně 10–20x
rychlejší než inference na GPU.
Nejde o postupné zlepšení; Je to
zásadní architektonický posun, který poprvé umožňuje spolupráci v reálném čase s AI.
---
ÚZKÉ HRDLO, O KTERÉM NIKDO NEMLUVÍ
Tady je hořké tajemství AI inference: váš GPU cluster většinu času *nepočítá*.
Když spouštíte velký jazykový model na NVIDIA GPU, skutečné násobení matic je rychlé. Co vás zabije, je:
1. Komunikace mezi GPU — Rozdělení modelu parametrů 175B+ mezi 8 GPU znamená neustálé přehazování dat
2. Šířka pásma paměti — HBM je rychlá, ale stále je mimo čip
3. Režie na batch — GPU optimalizují pro propustnost, nikoli pro latenci, takže čekají na dávkové požadavky
Výsledek? I u špičkových H100 je u modelů frontier 50-150 tokenů za sekundu. To je v pořádku pro asynchronní pracovní zátěže. Je to hrozné pro interakci v reálném čase.
---
CEREBRAS: JEDNA OPLATKA, KTERÁ VLÁDNE VŠEM
Cerebras zvolil radikálně odlišný přístup: nevyrábět čipy, stavět wafery.
Specifikace WSE-3 (Wafer Scale Engine 3) jsou ohromující:
Poměr WSE-3 NVIDIA B200
Velikost razidla 46 255 mm² ~800 mm² 57x...


Top
Hodnocení
Oblíbené
