OpenAI щойно впровадила GPT-5.3-Codex-Spark на апаратному забезпеченні Cerebras у масштабі пластин, досягнувши 1 000+ токенів на секунду — приблизно 10-20 разів швидше, ніж GPU-інференція. Це не поступове покращення; це фундаментальний архітектурний зсув, який вперше робить можливою співпрацю в реальному часі з ШІ. --- ВУЗЬКЕ МІСЦЕ, ПРО ЯКЕ НІХТО НЕ ГОВОРИТЬ Ось гіркий секрет висновку ШІ: ваш кластер GPU більшість часу *не займається обчисленнями*. Коли ви запускаєте велику мовну модель на NVIDIA GPU, фактичне множення матриць відбувається швидко. Те, що тебе вбиває, це: 1. Міжграфічна комунікація — Шардинг моделі параметрів 175B+ між 8 GPU означає постійне перетасування даних 2. Пропускна здатність пам'яті — HBM швидкий, але все ще поза чипом 3. Пакетні накладні витрати — GPU оптимізують для пропускної здатності, а не затримки, тому чекають на пакетні запити Результат? Навіть на передових H100 для моделей frontier можна отримати 50-150 жетонів на секунду. Це нормально для асинхронних навантажень. Це жахливо для взаємодії в реальному часі. --- CEREBRAS: ОДНА ПЛАСТИНА, ЩОБ ПАНУВАТИ ВСІМА Cerebras обрали радикально інший підхід: не будуйте чіпи, а збирайте вафлі. Характеристики WSE-3 (Wafer Scale Engine 3) вражають: Коефіцієнт WSE-3 NVIDIA B200 Розмір кристала 46 255 мм² ~800 мм² 57x...