Unul dintre primii agenți pe care i-am construit a fost extrem de simplu: Prelua informații dintr-un magazin vectorial, le formata ca HTML și le trimitea pe email utilizatorului. Nu poate fi mai simplu de atât, și totuși, acest agent a eșuat cam 1% din cazuri. Nicio eroare. Fără avertisment. Doar a returnat gunoi. Iată adevărul dur: Agenții eșuează des. Și eșuează în tăcere. Întotdeauna. Pur și simplu nu poți avea încredere că un LLM va face mereu ceea ce trebuie. Până acum, am construit și implementat câteva zeci de agenți, iar iată câteva dintre lucrurile care chiar funcționează: 1. Observabilitate din prima zi. Dacă nu poți vedea ce face agentul tău, nu poți să-l depanezi, să-l îmbunătățești sau să ai încredere în el. Fiecare agent ar trebui să producă urme care să arate fluxul complet de cereri, interacțiunile cu modelul, utilizarea token-urilor și metadatele de sincronizare. 2. Balustrade pentru intrări și ieșiri. Tot ce intră și iese dintr-un LLM ar trebui verificat prin cod determinist. Chiar și lucrurile care nu sunt susceptibile să se strice se vor rupe în cele din urmă. 3. Evaluarea LLM ca judecător. Poți construi un judecător simplu folosind un LLM pentru a evalua automat rezultatele agentului tău. Etichetează un set de date, scrie promptul de evaluare și iterează până când judecătorul detectează majoritatea eșecurilor. 4. Analiza eroarelor. Poți colecta mostre de eșec, să le categorizezi și să diagnostichezi cele mai frecvente greșeli. 5. Ingineria contextului. Adesea, agenții eșuează pentru că contextul lor este zgomotos, suprasolicitat sau irelevant. Să înveți cum să păstrezi contextul relevant este enorm. 6. Bucle de feedback umane. Uneori, cel mai bun balustradă este un om implicat, mai ales pentru decizii cu miză mare.