les modèles de demande ont été construits pour des humains frappant des API quelques fois par minute... max mais des millions d'agents ne dorment jamais, ne regroupent jamais, n'attendent jamais ils exécutent des inférences en continu, à travers tous les fuseaux horaires, avec une tolérance nulle pour rester en ligne AWS ne peut pas construire des centres de données assez rapidement pour la demande humaine. ils ne prennent même pas en compte ce que les agents font à cette courbe le temps nécessaire pour mettre à jour les modèles est un euphémisme