Talentfulle folk blir forfremmet til ledelse. Det samme gjelder talentfulle modeller. Claude håndterer kodeutførelsen. Gemini ruter forespørsler på tvers av CRM og chat. GPT-5 kan koordinere offentlig aksjeforskning. Hvorfor nå? Nøyaktigheten i verktøykall krysset en terskel. For to år siden lyktes GPT-4 med færre enn 50 % av funksjonskalle-oppgavene. Modellene hallusinerte parametere, kalt feil endepunkter, glemte kontekst midt i samtalen. I dag overstiger SOTA-modellene 90 % nøyaktighet på funksjonskall-benchmarks. Ytelsen til de nyeste modellene, som Gemini 3, er betydelig bedre i praksis enn benchmarkene antyder.
Trengte vi billion-parametermodeller bare for å kunne gjøre funksjonskall? Overraskende nok, ja. Eksperimenter med små handlingsmodeller, lette nettverk trent kun for verktøyvalg, mislykkes i produksjon. De mangler verdenskunnskap. Ledelse, viser det seg, krever kontekst. I dag dukker orkestratoren ofte opp som en underagent (Claude Code spinner opp en ny Claude Code). Denne symmetrien vil ikke vare. Den bitre lærepengen insisterer på at stadig større modeller skal håndtere alt. Men økonomien gjør motstand: finjustering av destillasjon og forsterkning gir modellene 40 % mindre og 60 % raskere, samtidig som de beholder 97 % av ytelsen. Spesialiserte agenter fra ulike leverandører dukker opp. Frontier-modellen blir den utøvende, og sender forespørsler på tvers av spesialister. Disse spesialistene kan være tredjepartsleverandører, alle konkurrerer om å være best innen sitt felt.
61