L'IA répond à vos questions en quelques secondes, mais derrière cette rapidité se cache quelque chose appelé inférence—le processus intensif en calcul où des modèles entraînés génèrent des réponses. Chez AWS, nous avons construit des puces personnalisées comme Trainium, des systèmes de routage intelligents et une infrastructure unifiée pour rendre l'inférence plus rapide et plus abordable. Alors que les agents IA gèrent des tâches complexes en plusieurs étapes, l'inférence représente 80 à 90 % de la puissance de calcul de l'IA. Nous concevons à une échelle planétaire pour maintenir ces millisecondes fiables.