de vraagmodellen zijn gebouwd voor mensen die een paar keer per minuut API's aanroepen... max maar miljoenen agenten slapen nooit, batchen nooit, wachten nooit dezelfde agenten voeren continu inferentie uit, over elke tijdzone, met nul tolerantie voor in de rij staan AWS kan datacenters niet snel genoeg bouwen voor de menselijke vraag. ze prijzen zelfs niet in wat agenten met die curve doen tijd om de modellen bij te werken is een understatement