Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI hat gerade GPT-5.3-Codex-Spark auf der Wafer-Scale-Hardware von Cerebras bereitgestellt und erreicht über 1.000 Tokens/Sekunde – ungefähr 10-20x schneller als GPU-Inferenz.
Das ist keine inkrementelle Verbesserung; es ist ein grundlegender architektonischer Wandel, der erstmals eine Echtzeit-KI-Zusammenarbeit ermöglicht.
---
DER ENGPASS, ÜBER DEN NIEMAND SPRICHT
Hier ist das bittere Geheimnis der KI-Inferenz: Ihr GPU-Cluster verbringt die meiste Zeit *nicht mit Berechnungen*.
Wenn Sie ein großes Sprachmodell auf NVIDIA-GPUs ausführen, sind die tatsächlichen Matrixmultiplikationen schnell. Was Sie aufhält, ist:
1. Inter-GPU-Kommunikation – Das Sharding eines Modells mit über 175B Parametern auf 8 GPUs bedeutet ständiges Daten-Shuffling.
2. Speicherbandbreite – HBM ist schnell, aber es ist immer noch off-chip.
3. Batch-Overhead – GPUs optimieren für Durchsatz, nicht für Latenz, also warten sie, um Anfragen zu batchen.
Das Ergebnis? Selbst auf den neuesten H100s sehen Sie 50-150 Tokens/Sekunde für Grenzmodelle. Das ist in Ordnung für asynchrone Arbeitslasten. Es ist schrecklich für Echtzeit-Interaktion.
---
CEREBRAS: EIN WAFFER, UM SIE ALLE ZU REGIEREN
Cerebras hat einen radikal anderen Ansatz gewählt: keine Chips bauen, Wafer bauen.
Die Spezifikationen des WSE-3 (Wafer Scale Engine 3) sind überwältigend:
WSE-3 NVIDIA B200 Verhältnis
Die-Größe 46.255 mm² ~800 mm² 57x
Transistoren 4 Billionen 208 Milliarden 19x
KI-Kerne 900.000 18.432 CUDA 49x...


Top
Ranking
Favoriten
