Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI har precis installerat GPT-5.3-Codex-Spark på Cerebras wafer-scale-hårdvara och uppnått 1 000+ tokens per sekund — ungefär 10-20x
snabbare än GPU-inferens.
Detta är ingen inkrementell förbättring; Det är en
grundläggande arkitektonisk förändring som gör realtidssamarbete med AI möjligt för första gången.
---
FLASKHALSEN SOM INGEN PRATAR OM
Här är den bittra hemligheten bakom AI-inferens: ditt GPU-kluster spenderar större delen av sin tid *inte med att beräkna*.
När du kör en stor språkmodell på NVIDIA-GPU:er är de faktiska matrismultiplikationerna snabba. Det som dödar dig är:
1. Kommunikation mellan GPU:er — Att sharda en 175B+ parametermodell över 8 GPU:er innebär konstant dataomflyttning
2. Minnesbandbredd — HBM är snabbt, men det är fortfarande off-chip
3. Batchningsöverhead — GPU:er optimerar för genomströmning, inte latens, så de väntar med batchförfrågningar
Resultatet? Även på toppmoderna H100 får du 50–150 tokens per sekund för frontier-modeller. Det är okej för asynkrona arbetsbelastningar. Det är fruktansvärt för interaktion i realtid.
---
CEREBROR: EN OBFEL SOM STYR DEM ALLA
Cerebras tog en radikalt annorlunda väg: bygg inte chip, bygg wafers.
WSE-3 (Wafer Scale Engine 3) specifikationerna är häpnadsväckande:
WSE-3 NVIDIA B200-förhållande
Stansstorlek 46 255 mm² ~800 mm² 57x...


Topp
Rankning
Favoriter
