En av de første agentene jeg bygde var ekstremt enkel: Den hentet informasjon fra en vektorbutikk, formaterte den som HTML, og sendte den på e-post til brukeren. Det blir ikke enklere enn dette, og likevel feilet denne agenten omtrent 1 % av gangene. Ingen feil. Ingen advarsel. Den returnerte bare søppel. Her er den harde sannheten: Agenter feiler ofte. Og de feiler stille. Hele tiden. Du kan rett og slett ikke stole på at en LLM gjør det riktige hver gang. Nå har jeg bygget og distribuert et par dusin agenter, og her er noen av tingene som faktisk fungerer: 1. Observerbarhet fra dag én. Hvis du ikke kan se hva agenten din gjør, kan du ikke feilsøke det, forbedre det eller stole på det. Hver agent bør produsere spor som viser hele forespørselsflyten, modellinteraksjoner, tokenbruk og timing-metadata. 2. Rekkverk på innganger og utganger. Alt som går inn i og ut av en LLM bør sjekkes med deterministisk kode. Selv ting som sannsynligvis ikke vil gå i stykker, vil til slutt gå i stykker. 3. LLM-som-dommer-evaluering. Du kan bygge en enkel dommer ved å bruke en LLM for automatisk å evaluere agentens resultater. Merk et datasett, skriv evalueringsprompten, og iterer til dommeren din oppdager de fleste feilene. 4. Feilanalyse. Du kan samle inn feilprøver, kategorisere dem og diagnostisere de vanligste feilene. 5. Kontekstteknikk. Ofte feiler agenter fordi konteksten deres er støyende, overbelastet eller irrelevant. Å lære å holde konteksten relevant er enormt. 6. Menneskelige tilbakemeldingssløyfer. Noen ganger er det beste rekkverket et menneske som er med i loopen, spesielt ved avgjørelser med høye innsatser.