Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI baru saja menyebarkan GPT-5.3-Codex-Spark pada perangkat keras skala wafer Cerebras, mencapai 1.000+ token/detik — kira-kira 10-20x
lebih cepat daripada inferensi GPU.
Ini bukan peningkatan bertahap; itu adalah
pergeseran arsitektur mendasar yang memungkinkan kolaborasi AI real-time untuk pertama kalinya.
---
KEMACETAN YANG TIDAK DIBICARAKAN SIAPA PUN
Inilah rahasia pahit inferensi AI: klaster GPU Anda menghabiskan sebagian besar waktunya *tidak komputasi*.
Saat Anda menjalankan model bahasa besar pada GPU NVIDIA, perkalian matriks yang sebenarnya cepat. Apa yang membunuh Anda adalah:
1. Komunikasi antar-GPU — Sharding model parameter 175B+ di 8 GPU berarti pengocok data yang konstan
2. Bandwidth memori — HBM cepat, tetapi masih off-chip
3. Overhead batching — GPU mengoptimalkan throughput, bukan latensi, sehingga mereka menunggu permintaan batch
Hasilnya? Bahkan pada H100 mutakhir, Anda melihat 50-150 token/detik untuk model perbatasan. Itu baik-baik saja untuk beban kerja asinkron. Ini mengerikan untuk interaksi waktu nyata.
---
CEREBRAS: SATU WAFER UNTUK MENGUASAI SEMUANYA
Cerebras mengambil pendekatan yang sangat berbeda: jangan membuat keripik, buat wafer.
Spesifikasi WSE-3 (Wafer Scale Engine 3) sangat mengejutkan:
Rasio WSE-3 NVIDIA B200
Ukuran cetakan 46.255 mm² ~800 mm² 57x...


Teratas
Peringkat
Favorit
