Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI heeft zojuist GPT-5.3-Codex-Spark uitgerold op de wafer-scale hardware van Cerebras, met een snelheid van meer dan 1.000 tokens/seconde — ongeveer 10-20x sneller dan GPU-inferentie.
Dit is geen incrementele verbetering; het is een fundamentele architectonische verschuiving die real-time AI-samenwerking voor het eerst mogelijk maakt.
---
DE KNELPUNT WAAR NIEMAND OVER PRAAT
Hier is het bittere geheim van AI-inferentie: je GPU-cluster besteedt het grootste deel van zijn tijd *niet aan berekeningen*.
Wanneer je een groot taalmodel op NVIDIA GPU's draait, zijn de daadwerkelijke matrixvermenigvuldigingen snel. Wat je tegenhoudt is:
1. Inter-GPU communicatie — Het verdelen van een model met meer dan 175B parameters over 8 GPU's betekent constante datashuffling.
2. Geheugenbandbreedte — HBM is snel, maar het is nog steeds off-chip.
3. Batch-overhead — GPU's optimaliseren voor doorvoer, niet voor latentie, dus ze wachten om verzoeken te batchen.
Het resultaat? Zelfs op de ultramoderne H100's kijk je naar 50-150 tokens/seconde voor grensmodellen. Dat is prima voor asynchrone workloads. Het is verschrikkelijk voor real-time interactie.
---
CEREBRAS: ÉÉN WAFER OM ZE ALLEMAAL TE HEERSEN
Cerebras heeft een radicaal andere benadering gekozen: bouw geen chips, bouw wafers.
De specificaties van de WSE-3 (Wafer Scale Engine 3) zijn verbluffend:
WSE-3 NVIDIA B200 Ratio
Die-grootte 46.255 mm² ~800 mm² 57x
Transistors 4 triljoen 208 miljard 19x
AI-kernen 900.000 18.432 CUDA 49x...


Boven
Positie
Favorieten
