OpenAI právě nasadil GPT-5.3-Codex-Spark na hardware Cerebras ve velikosti waferů, dosahujíc 1 000+ tokenů za sekundu — přibližně 10–20x rychlejší než inference na GPU. Nejde o postupné zlepšení; Je to zásadní architektonický posun, který poprvé umožňuje spolupráci v reálném čase s AI. --- ÚZKÉ HRDLO, O KTERÉM NIKDO NEMLUVÍ Tady je hořké tajemství AI inference: váš GPU cluster většinu času *nepočítá*. Když spouštíte velký jazykový model na NVIDIA GPU, skutečné násobení matic je rychlé. Co vás zabije, je: 1. Komunikace mezi GPU — Rozdělení modelu parametrů 175B+ mezi 8 GPU znamená neustálé přehazování dat 2. Šířka pásma paměti — HBM je rychlá, ale stále je mimo čip 3. Režie na batch — GPU optimalizují pro propustnost, nikoli pro latenci, takže čekají na dávkové požadavky Výsledek? I u špičkových H100 je u modelů frontier 50-150 tokenů za sekundu. To je v pořádku pro asynchronní pracovní zátěže. Je to hrozné pro interakci v reálném čase. --- CEREBRAS: JEDNA OPLATKA, KTERÁ VLÁDNE VŠEM Cerebras zvolil radikálně odlišný přístup: nevyrábět čipy, stavět wafery. Specifikace WSE-3 (Wafer Scale Engine 3) jsou ohromující: Poměr WSE-3 NVIDIA B200 Velikost razidla 46 255 mm² ~800 mm² 57x...