OpenAI только что развернула GPT-5.3-Codex-Spark на аппаратном обеспечении Cerebras с масштабом кристаллов, достигнув 1,000+ токенов в секунду — примерно в 10-20 раз быстрее, чем вывод на GPU. Это не просто постепенное улучшение; это фундаментальный архитектурный сдвиг, который впервые делает возможным реальное взаимодействие с ИИ. --- УЗКОЕ МЕСТО, О КОТОРОМ НИКТО НЕ ГОВОРИТ Вот горькая правда о выводе ИИ: ваш кластер GPU проводит большую часть времени *не вычисляя*. Когда вы запускаете большую языковую модель на GPU NVIDIA, фактические матричные умножения происходят быстро. Что вас убивает, так это: 1. Взаимодействие между GPU — Разделение модели с 175B+ параметрами на 8 GPU означает постоянную перетасовку данных 2. Пропускная способность памяти — HBM быстрая, но она все еще вне чипа 3. Накладные расходы на пакетирование — GPU оптимизируют для пропускной способности, а не задержки, поэтому они ждут, чтобы пакетировать запросы Результат? Даже на передовых H100 вы получаете 50-150 токенов в секунду для передовых моделей. Это нормально для асинхронных нагрузок. Это ужасно для взаимодействия в реальном времени. --- CEREBRAS: ОДИН КРИСТАЛЛ, ЧТОБЫ УПРАВЛЯТЬ ВСЕМИ Cerebras выбрала радикально другой подход: не создавать чипы, а создавать кристаллы. Спецификации WSE-3 (Wafer Scale Engine 3) потрясающие:                     WSE-3           NVIDIA B200      Соотношение Размер кристалла   46,255 mm²      ~800 mm²         57x...