Ho scoperto un modo per migliorare la guida degli agenti. In particolare, come migliorare le prestazioni quando dici "assicurati di fare questo" e l'LLM non lo fa. Ecco qui: Dire "ricorda di fare X" è inaffidabile - richiede all'agente LLM di avviare spontaneamente un comportamento procedurale. Ma presentare all'agente un'affermazione specifica, possibilmente errata ("Dovresti fare X - lo stai ancora facendo?") attiva in modo affidabile un comportamento correttivo quando l'affermazione è errata. L'agente non ha bisogno di ricordarsi di controllare. La discrepanza tra lo stato presentato e lo stato reale crea un evento di correzione a cui l'agente LLM risponde naturalmente. Questo mi ricorda il vecchio adagio "il modo migliore per ottenere una risposta corretta su internet è postare una sbagliata" e immagino che abbia senso dato che gli LLM sono prevalentemente la "conoscenza" distillata di internet. Comunque, ho costruito un sistema di memoria a lungo termine per i miei agenti e implementarlo in questo modo ha risolto molti problemi.