Encontrei uma maneira de melhorar a orientação de agentes. Ou seja, como melhorar o desempenho quando você diz "certifique-se de fazer isso" e o LLM não o faz. Aqui está: Dizer "lembre-se de fazer X" é pouco confiável - requer que o agente LLM inicie espontaneamente um comportamento procedural. Mas apresentar ao agente uma afirmação específica, possivelmente errada ("Você deveria estar fazendo X - ainda está fazendo isso?") aciona de forma confiável um comportamento corretivo quando a afirmação está errada. O agente não precisa lembrar de verificar. A discrepância entre o estado apresentado e o estado real cria um evento de correção ao qual o agente LLM responde naturalmente. Isso me lembra do velho ditado de que "a melhor maneira de obter uma resposta correta na internet é postar uma errada" e eu acho que isso faz sentido, já que os LLMs são predominantemente o "conhecimento" destilado da internet. De qualquer forma, tenho construído um sistema de memória de longa duração para meus agentes e implementá-lo dessa forma resolveu muitos problemas.