OpenAI otti juuri käyttöön GPT-5.3-Codex-Sparkin Cerebrasin wafer-mittakaavan laitteistolle, saavuttaen 1 000+ tokenia sekunnissa — noin 10–20x nopeampaa kuin GPU-päättely. Tämä ei ole asteittainen parannus; se on perustavanlaatuinen arkkitehtoninen muutos, joka mahdollistaa reaaliaikaisen tekoälyyhteistyön ensimmäistä kertaa. --- PULLONKAULA, JOSTA KUKAAN EI PUHU Tässä on karvas salaisuus tekoälypäättelystä: GPU-klusterisi viettää suurimman osan ajastaan *ilman laskentaa*. Kun ajat suurta kielimallia NVIDIA-näytönohjaimilla, matriisin kertolaskut ovat nopeita. Se, mikä tappaa sinut, on: 1. GPU:iden välinen viestintä — 175B+ parametrimallin jakaminen kahdeksan GPU:n välillä tarkoittaa jatkuvaa datan siirtoa 2. Muistikaistanleveys — HBM on nopea, mutta se on silti off-chip 3. Eräajokuorma — GPU:t optimoivat läpimenonopeuden, eivät viiveen, joten ne odottavat eräajopyyntöjä Mikä on tulos? Jopa huippuluokan H100-malleissa Frontier-malleissa on 50–150 tokenia sekunnissa. Se sopii hyvin asynkronisissa työkuormissa. Se on todella huono reaaliaikaisessa vuorovaikutuksessa. --- CEREBRAS: YKSI WAFER HALLITSEMAAN HEITÄ KAIKKIA Cerebras otti radikaalisti erilaisen lähestymistavan: älä rakenna siruja, rakenna wafereita. WSE-3 (Wafer Scale Engine 3) -tekniset tiedot ovat häkellyttäviä: WSE-3 NVIDIA B200 -suhde Muotin koko 46 255 mm² ~800 mm² 57x...