🚨 DERNIÈRE MINUTE : Un chercheur de Google et un lauréat du prix Turing viennent de publier un article qui expose la véritable crise de l'IA. Ce n'est pas l'entraînement. C'est l'inférence. Et le matériel que nous utilisons n'a jamais été conçu pour cela. L'article est signé par Xiaoyu Ma et David Patterson. Accepté par IEEE Computer, 2026. Pas de battage médiatique. Pas de lancement de produit. Juste une analyse froide de pourquoi le service des LLM est fondamentalement défaillant au niveau matériel. L'argument central est brutal : → Les FLOPS GPU ont augmenté de 80X de 2012 à 2022 → La bande passante mémoire n'a augmenté que de 17X pendant cette même période → Les coûts HBM par Go augmentent, pas diminuent → La phase de décodage est limitée par la mémoire, pas par le calcul → Nous construisons l'inférence sur des puces conçues pour l'entraînement Voici la partie la plus folle : OpenAI a perdu environ 5 milliards de dollars sur 3,7 milliards de dollars de revenus. Le goulet d'étranglement n'est pas la qualité du modèle. C'est le coût de service de chaque token à chaque utilisateur. L'inférence épuise ces entreprises. Et cinq tendances aggravent simultanément la situation : → Les modèles MoE comme DeepSeek-V3 avec 256 experts explosent la mémoire → Les modèles de raisonnement génèrent d'énormes chaînes de pensée avant de répondre → Les entrées multimodales (image, audio, vidéo) écrasent le texte → Les fenêtres de contexte longues mettent à rude épreuve les caches KV → Les pipelines RAG injectent plus de contexte par requête Leurs quatre propositions de changements matériels : → Flash à haute bande passante : empilements de 512 Go à la bande passante de niveau HBM, 10X plus de mémoire par nœud → Traitement près de la mémoire : circuits logiques placés à côté de la mémoire, pas sur la même puce → Empilement mémoire-logiciel 3D : connexions verticales offrant une consommation d'énergie 2-3X inférieure à celle de l'HBM...