AI răspunde întrebărilor tale în câteva secunde, dar în spatele acestei viteze se află ceva numit inferență — procesul care consumă mult calcul în care modelele antrenate generează răspunsuri. La AWS, am construit cipuri personalizate precum Trainium, sisteme inteligente de rutare și infrastructură unificată pentru a face inferența mai rapidă și mai accesibilă. Deoarece agenții AI gestionează sarcini complexe în mai mulți pași, inferența reprezintă 80-90% din puterea de calcul a AI. Facem inginerie la scară planetară pentru a menține acele milisecunde fiabile.