Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI ha appena implementato GPT-5.3-Codex-Spark sull'hardware wafer-scale di Cerebras, raggiungendo oltre 1.000 token al secondo — circa 10-20 volte
più veloce dell'inferenza GPU.
Questo non è un miglioramento incrementale; è un
cambiamento architettonico fondamentale che rende possibile la collaborazione AI in tempo reale per la prima volta.
---
IL COLLO DI BOTTIGLIA DI CUI NESSUNO PARLA
Ecco il segreto amaro dell'inferenza AI: il tuo cluster GPU trascorre la maggior parte del tempo *non calcolando*.
Quando esegui un grande modello linguistico su GPU NVIDIA, le vere moltiplicazioni di matrici sono veloci. Ciò che ti uccide è:
1. Comunicazione inter-GPU — Suddividere un modello con oltre 175 miliardi di parametri su 8 GPU significa costante scambio di dati
2. Larghezza di banda della memoria — L'HBM è veloce, ma è comunque off-chip
3. Sovraccarico di batching — Le GPU ottimizzano per il throughput, non per la latenza, quindi aspettano di raggruppare le richieste
Il risultato? Anche sui cutting-edge H100, stai guardando 50-150 token al secondo per i modelli di frontiera. Va bene per i carichi di lavoro asincroni. È terribile per l'interazione in tempo reale.
---
CEREBRAS: UN WAFER PER GOVERNARLI TUTTI
Cerebras ha adottato un approccio radicalmente diverso: non costruire chip, costruire wafer.
Le specifiche del WSE-3 (Wafer Scale Engine 3) sono sbalorditive:
WSE-3 NVIDIA B200 Rapporto
Dimensione del die 46.255 mm² ~800 mm² 57x...


Principali
Ranking
Preferiti
