Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI vient de déployer GPT-5.3-Codex-Spark sur le matériel à échelle de wafer de Cerebras, atteignant plus de 1 000 tokens/seconde — environ 10 à 20 fois
plus rapide que l'inférence GPU.
Ce n'est pas une amélioration incrémentale ; c'est un
changement architectural fondamental qui rend possible la collaboration IA en temps réel pour la première fois.
---
LE GOULET D'ÉTRANGLEMENT DONT PERSONNE NE PARLE
Voici le secret amer de l'inférence IA : votre cluster GPU passe la plupart de son temps *à ne pas calculer*.
Lorsque vous exécutez un grand modèle de langage sur des GPU NVIDIA, les multiplications de matrices réelles sont rapides. Ce qui vous tue, c'est :
1. Communication inter-GPU — Le partage d'un modèle de plus de 175B paramètres sur 8 GPU signifie un échange constant de données
2. Bande passante mémoire — HBM est rapide, mais c'est toujours hors puce
3. Surcharge de lot — Les GPU s'optimisent pour le débit, pas pour la latence, donc ils attendent de regrouper les demandes
Le résultat ? Même sur des H100 de pointe, vous regardez 50 à 150 tokens/seconde pour les modèles de pointe. C'est acceptable pour des charges de travail asynchrones. C'est terrible pour l'interaction en temps réel.
---
CEREBRAS : UN WAFER POUR TOUS LES RÉGNER
Cerebras a adopté une approche radicalement différente : ne pas construire des puces, mais construire des wafers.
Les spécifications du WSE-3 (Wafer Scale Engine 3) sont stupéfiantes :
WSE-3 NVIDIA B200 Ratio
Taille de die 46 255 mm² ~800 mm² 57x...


Meilleurs
Classement
Favoris
