Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inženýrství v Anthropicu vydalo další hit.
Jejich interní plán pro hodnocení AI agentů.
Tady je ta nejvíc neintuitivní lekce, kterou jsem si z toho odnesl:
Nezkoušejte kroky, které váš agent podnikl. Otestujte, co to skutečně vytvořilo.
To jde proti všem instinktům. Člověk by si myslel, že kontrola každého kroku zajišťuje kvalitu. Ale agenti jsou kreativní. Najdou řešení, která jste nečekali. Trestání nečekaných cest jen dělá vaše hodnocení křehkými.
Důležitý je konečný výsledek. Otestujte to přímo.
Příručka rozděluje tři typy hodnotitelů:
- Kódové: Rychlé a objektivní, ale křehké vůči platným variantám.
- Modelově založené: LLM jako porotce s rubrikami. Flexibilní, ale potřebuje kalibraci.
- Člověk: Zlatý standard, ale drahý. Používejte s rezervou.
Dále se zabývá hodnoticími strategiemi pro kódující agenty, konverzační agenty, výzkumné agenty a agenty pro používání počítačů.
Hlavní poznatky:
- Začít s 20–50 testovacími případy z reálných selhání
- Každý pokus by měl začínat v čistém prostředí
- Spouštějte více pokusů, protože výstupy modelů se liší
- Přečti si přepisy. Takto se chytají chyby při hodnocení.
Pokud to s posíláním spolehlivých agentů myslíte vážně. Rozhodně doporučuji si ji přečíst.
Odkaz v dalším tweetu.

Top
Hodnocení
Oblíbené
