OpenAI har nettopp rullet ut GPT-5.3-Codex-Spark på Cerebras' wafer-scale maskinvare, og oppnådde 1 000+ tokens per sekund — omtrent 10-20x raskere enn GPU-inferens. Dette er ikke en gradvis forbedring; Det er en grunnleggende arkitektonisk endring som gjør sanntids AI-samarbeid mulig for første gang. --- FLASKEHALSEN INGEN SNAKKER OM Her er den bitre hemmeligheten bak AI-inferens: GPU-klyngen din bruker mesteparten av tiden sin *ikke på å beregne*. Når du kjører en stor språkmodell på NVIDIA GPU-er, er de faktiske matrise-multiplikasjonene raske. Det som dreper deg er: 1. Kommunikasjon mellom GPU-er — Å sharde en 175B+ parametermodell over 8 GPU-er betyr konstant datastokking 2. Minnebåndbredde — HBM er rask, men fortsatt off-chip 3. Batching-overhead — GPU-er optimaliserer for gjennomstrømning, ikke forsinkelse, så de venter på batchforespørsler Resultatet? Selv på banebrytende H100-er ser du på 50-150 tokens/sekund for Frontier-modeller. Det er greit for asynkrone arbeidsbelastninger. Det er forferdelig for sanntidsinteraksjon. --- CEREBRAS: ÉN WAFER FOR Å HERSKE OVER DEM ALLE Cerebras tok en radikalt annerledes tilnærming: ikke bygg brikker, bygg wafers. Spesifikasjonene til WSE-3 (Wafer Scale Engine 3) er overveldende: WSE-3 NVIDIA B200-forhold Stempelstørrelse 46 255 mm² ~800 mm² 57x...