OpenAI ha appena implementato GPT-5.3-Codex-Spark sull'hardware wafer-scale di Cerebras, raggiungendo oltre 1.000 token al secondo — circa 10-20 volte più veloce dell'inferenza GPU. Questo non è un miglioramento incrementale; è un cambiamento architettonico fondamentale che rende possibile la collaborazione AI in tempo reale per la prima volta. --- IL COLLO DI BOTTIGLIA DI CUI NESSUNO PARLA Ecco il segreto amaro dell'inferenza AI: il tuo cluster GPU trascorre la maggior parte del tempo *non calcolando*. Quando esegui un grande modello linguistico su GPU NVIDIA, le vere moltiplicazioni di matrici sono veloci. Ciò che ti uccide è: 1. Comunicazione inter-GPU — Suddividere un modello con oltre 175 miliardi di parametri su 8 GPU significa costante scambio di dati 2. Larghezza di banda della memoria — L'HBM è veloce, ma è comunque off-chip 3. Sovraccarico di batching — Le GPU ottimizzano per il throughput, non per la latenza, quindi aspettano di raggruppare le richieste Il risultato? Anche sui cutting-edge H100, stai guardando 50-150 token al secondo per i modelli di frontiera. Va bene per i carichi di lavoro asincroni. È terribile per l'interazione in tempo reale. --- CEREBRAS: UN WAFER PER GOVERNARLI TUTTI Cerebras ha adottato un approccio radicalmente diverso: non costruire chip, costruire wafer. Le specifiche del WSE-3 (Wafer Scale Engine 3) sono sbalorditive:                     WSE-3           NVIDIA B200      Rapporto Dimensione del die   46.255 mm²      ~800 mm²         57x...