OpenAI vient de déployer GPT-5.3-Codex-Spark sur le matériel à échelle de wafer de Cerebras, atteignant plus de 1 000 tokens/seconde — environ 10 à 20 fois plus rapide que l'inférence GPU. Ce n'est pas une amélioration incrémentale ; c'est un changement architectural fondamental qui rend possible la collaboration IA en temps réel pour la première fois. --- LE GOULET D'ÉTRANGLEMENT DONT PERSONNE NE PARLE Voici le secret amer de l'inférence IA : votre cluster GPU passe la plupart de son temps *à ne pas calculer*. Lorsque vous exécutez un grand modèle de langage sur des GPU NVIDIA, les multiplications de matrices réelles sont rapides. Ce qui vous tue, c'est : 1. Communication inter-GPU — Le partage d'un modèle de plus de 175B paramètres sur 8 GPU signifie un échange constant de données 2. Bande passante mémoire — HBM est rapide, mais c'est toujours hors puce 3. Surcharge de lot — Les GPU s'optimisent pour le débit, pas pour la latence, donc ils attendent de regrouper les demandes Le résultat ? Même sur des H100 de pointe, vous regardez 50 à 150 tokens/seconde pour les modèles de pointe. C'est acceptable pour des charges de travail asynchrones. C'est terrible pour l'interaction en temps réel. --- CEREBRAS : UN WAFER POUR TOUS LES RÉGNER Cerebras a adopté une approche radicalement différente : ne pas construire des puces, mais construire des wafers. Les spécifications du WSE-3 (Wafer Scale Engine 3) sont stupéfiantes :                     WSE-3           NVIDIA B200      Ratio Taille de die        46 255 mm²      ~800 mm²         57x...