Il denaro come scalare di valutazione significa: - Le azioni LLM diventano classificabili - Gli errori hanno penalità misurabili - Le ricompense sono commensurabili tra gli strumenti
Il mio pensiero è che il denaro dovrebbe funzionare come un forte segnale di allineamento per compiti agentici. Non solo perché codifica valori, ma soprattutto perché: - impone scarsità - crea costo opportunità - fornisce un'unità universale per la valutazione Questo è un framework molto diverso per il post-addestramento rispetto al tradizionale RLHF.
38