OpenAI, Cerebras'ın wafer ölçekli donanımında GPT-5.3-Codex-Spark sistemini yeni bir şekilde dağıttı ve saniyede 1.000+ token — yaklaşık 10-20x — ulaştı GPU çıkarımından daha hızlı. Bu kademeli bir gelişme değil; Bu bir gerçek zamanlı yapay zeka iş birliğini ilk kez mümkün kılan temel mimari değişim. --- KİMSENİN KONUŞMADIĞI DARBOĞAZ İşte yapay zeka çıkarımının acı sırrı: GPU kümeniz zamanının çoğunu *hesaplamadan* geçiriyor. NVIDIA GPU'larda büyük bir dil modeli çalıştırdığınızda, gerçek matris çarpımları hızlıdır. Sizi öldüren şey şular: 1. GPU arası iletişim — 175B+ parametre modelini 8 GPU arasında sharding etmek, sürekli veri karıştırma anlamına gelir 2. Bellek bant genişliği — HBM hızlıdır ama yine de çip dışı 3. Toplu Yükleme — GPU'lar, gecikme yerine veri verimliliği optimize eder, bu yüzden toplu istekleri beklerler Sonuç ne oldu? En son H100'lerde bile, frontier modelleri için saniyede 50-150 jeton arasında. Bu assenkron iş yükleri için sorun değil. Gerçek zamanlı etkileşim için berbat. --- CEREBRAS: HEPSINI YÖNETECEK TEK BIR VAFLI Cerebras tamamen farklı bir yaklaşım benimsedi: çip üretme, wafer üret. WSE-3 (Wafer Scale Engine 3) teknik direksiyonları şaşırtıcı: WSE-3 NVIDIA B200 Oranı Kalıp boyutu 46.255 mm² ~800 mm² 57x...