Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI только что развернула GPT-5.3-Codex-Spark на аппаратном обеспечении Cerebras с масштабом кристаллов, достигнув 1,000+ токенов в секунду — примерно в 10-20 раз
быстрее, чем вывод на GPU.
Это не просто постепенное улучшение; это
фундаментальный архитектурный сдвиг, который впервые делает возможным реальное взаимодействие с ИИ.
---
УЗКОЕ МЕСТО, О КОТОРОМ НИКТО НЕ ГОВОРИТ
Вот горькая правда о выводе ИИ: ваш кластер GPU проводит большую часть времени *не вычисляя*.
Когда вы запускаете большую языковую модель на GPU NVIDIA, фактические матричные умножения происходят быстро. Что вас убивает, так это:
1. Взаимодействие между GPU — Разделение модели с 175B+ параметрами на 8 GPU означает постоянную перетасовку данных
2. Пропускная способность памяти — HBM быстрая, но она все еще вне чипа
3. Накладные расходы на пакетирование — GPU оптимизируют для пропускной способности, а не задержки, поэтому они ждут, чтобы пакетировать запросы
Результат? Даже на передовых H100 вы получаете 50-150 токенов в секунду для передовых моделей. Это нормально для асинхронных нагрузок. Это ужасно для взаимодействия в реальном времени.
---
CEREBRAS: ОДИН КРИСТАЛЛ, ЧТОБЫ УПРАВЛЯТЬ ВСЕМИ
Cerebras выбрала радикально другой подход: не создавать чипы, а создавать кристаллы.
Спецификации WSE-3 (Wafer Scale Engine 3) потрясающие:
WSE-3 NVIDIA B200 Соотношение
Размер кристалла 46,255 mm² ~800 mm² 57x...


Топ
Рейтинг
Избранное
