Utalentowani ludzie awansują na stanowiska kierownicze. Tak samo utalentowane modele. Claude zarządza wykonywaniem kodu. Gemini kieruje żądaniami w CRM i czacie. GPT-5 może koordynować badania publicznych akcji. Dlaczego teraz? Dokładność wywołań narzędzi przekroczyła pewien próg. Dwa lata temu, GPT-4 odnosił sukcesy w mniej niż 50% zadań związanych z wywołaniami funkcji. Modele halucynowały parametry, wywoływały niewłaściwe punkty końcowe, zapominały kontekst w trakcie rozmowy. Dziś, modele SOTA przekraczają 90% dokładności w benchmarkach wywołań funkcji. Wydajność najnowszych modeli, takich jak Gemini 3, jest w praktyce znacznie lepsza niż sugerują benchmarki.
Czy potrzebowaliśmy modeli z trylionem parametrów tylko po to, aby wykonywać wywołania funkcji? Zaskakująco, tak. Eksperymenty z małymi modelami akcji, lekkimi sieciami trenowanymi tylko do wyboru narzędzi, zawodzą w produkcji. Brakuje im wiedzy o świecie. Okazuje się, że zarządzanie wymaga kontekstu. Dziś, orkiestrator często uruchamia się jako subagent (Claude Code uruchamia kolejny Claude Code). Ta symetria nie potrwa długo. Gorzka lekcja sugeruje, że coraz większe modele powinny obsługiwać wszystko. Ale ekonomia stawia opór: destylacja i wzmocnione dostrajanie produkują modele o 40% mniejsze i 60% szybsze, zachowując 97% wydajności. Pojawiają się wyspecjalizowane agenty od różnych dostawców. Model graniczny staje się wykonawczym, kierując prośby do specjalistów. Ci specjaliści mogą być dostawcami zewnętrznymi, wszyscy starają się być najlepsi w swojej dziedzinie.
55