OpenAI heeft zojuist GPT-5.3-Codex-Spark uitgerold op de wafer-scale hardware van Cerebras, met een snelheid van meer dan 1.000 tokens/seconde — ongeveer 10-20x sneller dan GPU-inferentie. Dit is geen incrementele verbetering; het is een fundamentele architectonische verschuiving die real-time AI-samenwerking voor het eerst mogelijk maakt. --- DE KNELPUNT WAAR NIEMAND OVER PRAAT Hier is het bittere geheim van AI-inferentie: je GPU-cluster besteedt het grootste deel van zijn tijd *niet aan berekeningen*. Wanneer je een groot taalmodel op NVIDIA GPU's draait, zijn de daadwerkelijke matrixvermenigvuldigingen snel. Wat je tegenhoudt is: 1. Inter-GPU communicatie — Het verdelen van een model met meer dan 175B parameters over 8 GPU's betekent constante datashuffling. 2. Geheugenbandbreedte — HBM is snel, maar het is nog steeds off-chip. 3. Batch-overhead — GPU's optimaliseren voor doorvoer, niet voor latentie, dus ze wachten om verzoeken te batchen. Het resultaat? Zelfs op de ultramoderne H100's kijk je naar 50-150 tokens/seconde voor grensmodellen. Dat is prima voor asynchrone workloads. Het is verschrikkelijk voor real-time interactie. --- CEREBRAS: ÉÉN WAFER OM ZE ALLEMAAL TE HEERSEN Cerebras heeft een radicaal andere benadering gekozen: bouw geen chips, bouw wafers. De specificaties van de WSE-3 (Wafer Scale Engine 3) zijn verbluffend:                     WSE-3           NVIDIA B200      Ratio Die-grootte        46.255 mm²      ~800 mm²         57x Transistors         4 triljoen      208 miljard      19x AI-kernen           900.000         18.432 CUDA      49x...