Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Încă o postare grozavă de la Anthropic!
Totul ține de a-ți îmbunătăți agenții prin evaluări.
Iată concluziile mele rapide de pe blog:
Capabilitățile care fac agenții utili (autonomie, inteligență, flexibilitate) sunt aceleași care îi fac greu de evaluat. Nu poți doar să rulezi teste unitare și să te aștepți ca aplicația ta agentic să funcționeze.
Acest ghid explică cadrul practic pe care dezvoltatorii antropici îl folosesc pentru evaluările agenților.
Au menționat trei tipuri de evaluatori, fiecare cu compromisuri:
- Gradatoarele bazate pe cod sunt rapide, ieftine și reproductibile, dar fragile la variații valide.
- Evaluatorii bazați pe modele gestionează nuanțe și sarcini deschise, dar sunt nedeterministi și necesită calibrare umană.
- Clasificatoarele umane sunt de calitate standard de aur, dar scumpe și lente.
De asemenea, vorbesc despre două categorii de evaluări care servesc scopuri diferite.
1) Evaluările de capabilități întreabă "ce poate face bine acest agent?" și încep cu rate mici de promovare.
2) Evaluările de regresie întreabă "mai poate face față sarcinilor anterioare?" și ar trebui să rămână aproape de 100%. Sarcinile care trec de la capacitate la regresie reprezintă un progres real.
Pentru non-determinism, două metrici contează. pass@k măsoară probabilitatea de cel puțin o reușită în k încercări. pass^k măsoară probabilitatea ca toate cele k încercări să reușească. Acestea diverg dramatic, la k=10, pass@k poate ajunge la 100%, în timp ce pass^k scade aproape de zero.
Un sfat foarte bun în bloguri este să începi cu 20-50 de sarcini simple, pornind de la eșecuri reale, în loc să aștepți perfecțiunea. Transformă verificările manuale pe care le faci deja în cazuri de testare. Rezultate de calificare, nu căi alese. Include credit parțial pentru sarcini complexe.
Capcanele comune includ notarea rigidă care penalizează răspunsurile echivalente, dar formatate diferit, specificațiile ambigue ale sarcinilor și sarcinile stocastice imposibil de reprodus.
...

Limită superioară
Clasament
Favorite
