Natknąłem się na sposób na poprawę sterowania agentem. Mianowicie, jak poprawić wydajność, gdy mówisz "upewnij się, że to robisz", a LLM tego nie robi. Oto to: Mówienie "pamiętaj, aby zrobić X" jest niewiarygodne - wymaga od agenta LLM spontanicznego zainicjowania zachowania proceduralnego. Ale przedstawienie agentowi konkretnego, być może błędnego twierdzenia ("Powinieneś robić X - czy nadal to robisz?") niezawodnie wyzwala zachowanie korygujące, gdy twierdzenie jest błędne. Agent nie musi pamiętać, aby sprawdzić. Niezgodność między przedstawionym stanem a rzeczywistym stanem tworzy zdarzenie korygujące, na które agent LLM naturalnie reaguje. Przypomina mi to starą maksymę "najlepszym sposobem na uzyskanie poprawnej odpowiedzi w internecie jest opublikowanie błędnej" i myślę, że to ma sens, ponieważ LLM-y są w przeważającej części destylowaną "wiedzą" internetu. W każdym razie buduję system długoterminowej pamięci dla moich agentów, a wdrożenie go w ten sposób naprawiło wiele problemów.