Pessoas talentosas são promovidas para gerência. Modelos talentosas também. Claude gerencia a execução do código. O Gemini roteia pedidos pelo CRM e chat. O GPT-5 pode coordenar pesquisas públicas de ações. Por que agora? A precisão da chamada de ferramentas ultrapassou um limite. Há dois anos, o GPT-4 teve sucesso em menos de 50% das tarefas de chamada de funções. Modelos alucinaram parâmetros, chamaram de endpoints errados, esqueceram o contexto no meio da conversa. Hoje, os modelos SOTA superam 90% de precisão em benchmarks de chamada de funções. O desempenho dos modelos mais recentes, como o Gemini 3, é substancialmente melhor na prática do que os benchmarks sugerem.
Precisávamos de modelos de trilhões de parâmetros só para fazer chamadas de função? Surpreendentemente, sim. Experimentos com modelos de ação pequena, redes leves treinadas apenas para seleção de ferramentas, falham na produção. Eles não têm conhecimento do mundo. A gestão, ao que parece, exige contexto. Hoje, o orquestrador frequentemente se auto-gera como um subagente (Claude Code cria outro Claude Code). Essa simetria não vai durar. A amarga lição insiste que modelos cada vez maiores devem lidar com tudo. Mas a economia reage: destilação e ajuste fino de reforço produzem modelos 40% menores e 60% mais rápidos, mantendo 97% do desempenho. Agentes especializados de diferentes fornecedores estão surgindo. O modelo de fronteira torna-se o executivo, encaminhando as solicitações entre especialistas. Esses especialistas podem ser fornecedores terceirizados, todos competindo para serem os melhores em seu domínio.
69