Die Nachfrage Modelle wurden für Menschen erstellt, die ein paar Mal pro Minute auf APIs zugreifen... maximal aber Millionen von Agenten schlafen nie, batchen nie, warten nie sie führen kontinuierlich Inferenz durch, über alle Zeitzonen hinweg, mit null Toleranz für das Warten in der Schlange AWS kann nicht schnell genug Rechenzentren für die menschliche Nachfrage bauen. Sie berücksichtigen nicht einmal, was Agenten mit dieser Kurve machen die Zeit, um die Modelle zu aktualisieren, ist eine Untertreibung