Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI har nettopp rullet ut GPT-5.3-Codex-Spark på Cerebras' wafer-scale maskinvare, og oppnådde 1 000+ tokens per sekund — omtrent 10-20x
raskere enn GPU-inferens.
Dette er ikke en gradvis forbedring; Det er en
grunnleggende arkitektonisk endring som gjør sanntids AI-samarbeid mulig for første gang.
---
FLASKEHALSEN INGEN SNAKKER OM
Her er den bitre hemmeligheten bak AI-inferens: GPU-klyngen din bruker mesteparten av tiden sin *ikke på å beregne*.
Når du kjører en stor språkmodell på NVIDIA GPU-er, er de faktiske matrise-multiplikasjonene raske. Det som dreper deg er:
1. Kommunikasjon mellom GPU-er — Å sharde en 175B+ parametermodell over 8 GPU-er betyr konstant datastokking
2. Minnebåndbredde — HBM er rask, men fortsatt off-chip
3. Batching-overhead — GPU-er optimaliserer for gjennomstrømning, ikke forsinkelse, så de venter på batchforespørsler
Resultatet? Selv på banebrytende H100-er ser du på 50-150 tokens/sekund for Frontier-modeller. Det er greit for asynkrone arbeidsbelastninger. Det er forferdelig for sanntidsinteraksjon.
---
CEREBRAS: ÉN WAFER FOR Å HERSKE OVER DEM ALLE
Cerebras tok en radikalt annerledes tilnærming: ikke bygg brikker, bygg wafers.
Spesifikasjonene til WSE-3 (Wafer Scale Engine 3) er overveldende:
WSE-3 NVIDIA B200-forhold
Stempelstørrelse 46 255 mm² ~800 mm² 57x...


Topp
Rangering
Favoritter
