OpenAI hat gerade GPT-5.3-Codex-Spark auf der Wafer-Scale-Hardware von Cerebras bereitgestellt und erreicht über 1.000 Tokens/Sekunde – ungefähr 10-20x schneller als GPU-Inferenz. Das ist keine inkrementelle Verbesserung; es ist ein grundlegender architektonischer Wandel, der erstmals eine Echtzeit-KI-Zusammenarbeit ermöglicht. --- DER ENGPASS, ÜBER DEN NIEMAND SPRICHT Hier ist das bittere Geheimnis der KI-Inferenz: Ihr GPU-Cluster verbringt die meiste Zeit *nicht mit Berechnungen*. Wenn Sie ein großes Sprachmodell auf NVIDIA-GPUs ausführen, sind die tatsächlichen Matrixmultiplikationen schnell. Was Sie aufhält, ist: 1. Inter-GPU-Kommunikation – Das Sharding eines Modells mit über 175B Parametern auf 8 GPUs bedeutet ständiges Daten-Shuffling. 2. Speicherbandbreite – HBM ist schnell, aber es ist immer noch off-chip. 3. Batch-Overhead – GPUs optimieren für Durchsatz, nicht für Latenz, also warten sie, um Anfragen zu batchen. Das Ergebnis? Selbst auf den neuesten H100s sehen Sie 50-150 Tokens/Sekunde für Grenzmodelle. Das ist in Ordnung für asynchrone Arbeitslasten. Es ist schrecklich für Echtzeit-Interaktion. --- CEREBRAS: EIN WAFFER, UM SIE ALLE ZU REGIEREN Cerebras hat einen radikal anderen Ansatz gewählt: keine Chips bauen, Wafer bauen. Die Spezifikationen des WSE-3 (Wafer Scale Engine 3) sind überwältigend:                     WSE-3           NVIDIA B200      Verhältnis Die-Größe            46.255 mm²      ~800 mm²         57x Transistoren         4 Billionen      208 Milliarden      19x KI-Kerne            900.000         18.432 CUDA      49x...