Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI щойно впровадила GPT-5.3-Codex-Spark на апаратному забезпеченні Cerebras у масштабі пластин, досягнувши 1 000+ токенів на секунду — приблизно 10-20 разів
швидше, ніж GPU-інференція.
Це не поступове покращення; це
фундаментальний архітектурний зсув, який вперше робить можливою співпрацю в реальному часі з ШІ.
---
ВУЗЬКЕ МІСЦЕ, ПРО ЯКЕ НІХТО НЕ ГОВОРИТЬ
Ось гіркий секрет висновку ШІ: ваш кластер GPU більшість часу *не займається обчисленнями*.
Коли ви запускаєте велику мовну модель на NVIDIA GPU, фактичне множення матриць відбувається швидко. Те, що тебе вбиває, це:
1. Міжграфічна комунікація — Шардинг моделі параметрів 175B+ між 8 GPU означає постійне перетасування даних
2. Пропускна здатність пам'яті — HBM швидкий, але все ще поза чипом
3. Пакетні накладні витрати — GPU оптимізують для пропускної здатності, а не затримки, тому чекають на пакетні запити
Результат? Навіть на передових H100 для моделей frontier можна отримати 50-150 жетонів на секунду. Це нормально для асинхронних навантажень. Це жахливо для взаємодії в реальному часі.
---
CEREBRAS: ОДНА ПЛАСТИНА, ЩОБ ПАНУВАТИ ВСІМА
Cerebras обрали радикально інший підхід: не будуйте чіпи, а збирайте вафлі.
Характеристики WSE-3 (Wafer Scale Engine 3) вражають:
Коефіцієнт WSE-3 NVIDIA B200
Розмір кристала 46 255 мм² ~800 мм² 57x...


Найкращі
Рейтинг
Вибране
