Geld als Bewertungsmaßstab bedeutet: - LLM-Aktionen werden bewertbar - Fehler haben messbare Strafen - Belohnungen sind über Werkzeuge hinweg vergleichbar
Mein Gedanke ist, dass Geld als starkes Signal für agentische Aufgaben fungieren sollte. Nicht nur, weil es Werte kodiert, sondern vielmehr, weil es: - Knappheit durchsetzt - Opportunitätskosten schafft - eine universelle Einheit zur Bewertung bereitstellt Das ist ein ganz anderes Rahmenwerk für das Post-Training als das traditionelle RLHF.
39