DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

OpenAI heeft zojuist GPT-5.3-Codex-Spark uitgerold op de wafer-scale hardware van Cerebras, met een snelheid van meer dan 1.000 tokens/seconde — ongeveer 10-20x sneller dan GPU-inferentie. Dit is geen incrementele verbetering; het is een fundamentele architectonische verschuiving die real-time AI-samenwerking voor het eerst mogelijk maakt. --- DE KNELPUNT WAAR NIEMAND OVER PRAAT Hier is het bittere geheim van AI-inferentie: je GPU-cluster besteedt het grootste deel van zijn tijd *niet aan berekeningen*. Wanneer je een groot taalmodel op NVIDIA GPU's draait, zijn de daadwerkelijke matrixvermenigvuldigingen snel. Wat je tegenhoudt is: 1. Inter-GPU communicatie — Het verdelen van een model met meer dan 175B parameters over 8 GPU's betekent constante datashuffling. 2. Geheugenbandbreedte — HBM is snel, maar het is nog steeds off-chip. 3. Batch-overhead — GPU's optimaliseren voor doorvoer, niet voor latentie, dus ze wachten om verzoeken te batchen. Het resultaat? Zelfs op de ultramoderne H100's kijk je naar 50-150 tokens/seconde voor grensmodellen. Dat is prima voor asynchrone workloads. Het is verschrikkelijk voor real-time interactie. --- CEREBRAS: ÉÉN WAFER OM ZE ALLEMAAL TE HEERSEN Cerebras heeft een radicaal andere benadering gekozen: bouw geen chips, bouw wafers. De specificaties van de WSE-3 (Wafer Scale Engine 3) zijn verbluffend: WSE-3 NVIDIA B200 Ratio Die-grootte 46.255 mm² ~800 mm² 57x Transistors 4 triljoen 208 miljard 19x AI-kernen 900.000 18.432 CUDA 49x...

Boven

Positie

Favorieten