AI svarar på dina frågor på några sekunder, men bakom den hastigheten finns något som kallas inferens—den beräkningsintensiva processen där tränade modeller genererar svar. På AWS har vi byggt specialanpassade chip som Trainium, intelligenta routningssystem och enhetlig infrastruktur för att göra inferensprocessen snabbare och mer prisvärd. Eftersom AI-agenter hanterar komplexa flerstegsuppgifter står inferensen för 80–90 % av AI:s beräkningskraft. Vi konstruerar i planetär skala för att hålla de där millisekunderna pålitliga.