Když stavíte AI agenty, nechoďte k promptům jako k konfiguračním řetězcům. Chovejte se k nim jako k spustitelné obchodní logice. Protože to jsou opravdu oni. @arshdilbagi blog a tato přednáška Stanford CS 224G představují jeden z nejjasnějších mentálních modelů, které jsem kdy viděl pro hodnocení LLM. Přestaňte brát hodnocení jako jednotkové testy. To funguje u deterministického softwaru. U LLM produktů to vytváří falešnou důvěru, protože skutečné využití se v průběhu času mění. Příklad: pojišťovací prompt prošel 20 hodnotícími případy. Tým vysílal. Ve výrobě se objevila nová třída požadavků, které tiše selhaly. Žádný pád, žádné upozornění, jen špatné odpovědi ve velkém měřítku. Řešením není "napsat více evaluačních případů", což dělá mnoho týmů. Buduje hodnocení jako živou zpětnou vazbu. Začněte s malou sadou, odesílejte ji, sledujte, co se v produkci pokazí, připočtete tyto chyby zpět a opakujte každý prompt nebo změnu modelu. Jaké selhání ve vyhodnocení zaskočilo váš tým? Blog: Přednáška Stanford CS 224G: