OpenAI baru saja menyebarkan GPT-5.3-Codex-Spark pada perangkat keras skala wafer Cerebras, mencapai 1.000+ token/detik — kira-kira 10-20x lebih cepat daripada inferensi GPU. Ini bukan peningkatan bertahap; itu adalah pergeseran arsitektur mendasar yang memungkinkan kolaborasi AI real-time untuk pertama kalinya. --- KEMACETAN YANG TIDAK DIBICARAKAN SIAPA PUN Inilah rahasia pahit inferensi AI: klaster GPU Anda menghabiskan sebagian besar waktunya *tidak komputasi*. Saat Anda menjalankan model bahasa besar pada GPU NVIDIA, perkalian matriks yang sebenarnya cepat. Apa yang membunuh Anda adalah: 1. Komunikasi antar-GPU — Sharding model parameter 175B+ di 8 GPU berarti pengocok data yang konstan 2. Bandwidth memori — HBM cepat, tetapi masih off-chip 3. Overhead batching — GPU mengoptimalkan throughput, bukan latensi, sehingga mereka menunggu permintaan batch Hasilnya? Bahkan pada H100 mutakhir, Anda melihat 50-150 token/detik untuk model perbatasan. Itu baik-baik saja untuk beban kerja asinkron. Ini mengerikan untuk interaksi waktu nyata. --- CEREBRAS: SATU WAFER UNTUK MENGUASAI SEMUANYA Cerebras mengambil pendekatan yang sangat berbeda: jangan membuat keripik, buat wafer. Spesifikasi WSE-3 (Wafer Scale Engine 3) sangat mengejutkan: Rasio WSE-3 NVIDIA B200 Ukuran cetakan 46.255 mm² ~800 mm² 57x...