Peníze jako evaluační skalár znamenají: - Akce LLM se stávají řaditelnými - Chyby mají měřitelné sankce - Odměny jsou úměrné napříč nástroji
Myslím si, že peníze by měly být silným signálem pro agentské úkoly. Nejen proto, že kóduje hodnoty, ale ještě víc proto, že: - vynucuje nedostatek - vytváří náklady příležitosti - poskytuje univerzální jednotku pro hodnocení Tohle je úplně jiný rámec pro post-trénink než tradiční RLHF
37