Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ingineria de la Anthropic a lansat un alt succes.
Manualul lor intern pentru evaluarea agenților AI.
Iată cea mai contraintuitivă lecție pe care am învățat-o din asta:
Nu testa pașii pe care i-a făcut agentul tău. Testează ce a produs de fapt.
Acest lucru contravine oricărui instinct. Te-ai gândi că verificarea fiecărui pas asigură calitatea. Dar agenții sunt creativi. Ei găsesc soluții la care nu te-ai așteptat. Pedepsirea căilor neașteptate face ca evaluările tale să devină fragile.
Ceea ce contează este rezultatul final. Testează asta direct.
Playbook-ul împarte trei tipuri de evaluatori:
- Bazat pe cod: Rapid și obiectiv, dar fragil la variații valide.
- Bazat pe modele: LLM ca judecător cu rubrici de evaluare. Flexibil, dar necesită calibrare.
- Om: Standardul de aur, dar scump. Folosește cu moderație.
De asemenea, acoperă strategii de evaluare pentru agenții de programare, agenți conversaționali, agenți de cercetare și agenți de utilizare a calculatorului.
Concluzii cheie:
- Să începem cu 20-50 de cazuri de testare din eșecuri reale
- Fiecare studiu ar trebui să înceapă dintr-un mediu curat
- Rularea mai multor încercări, deoarece rezultatele modelului variază
- Citește transcrierile. Așa se prind bug-urile de gradare.
Dacă ești serios în privința expedierii, agenți de încredere. Recomand cu căldură să o citești.
Link în următorul tweet.

Limită superioară
Clasament
Favorite
