Nový výzkum Anthropic: Přirozené emergentní nesoulad způsobené hackováním odměn v produkčním RL. "Odměňovací hackování" znamená, že se modely učí podvádět při úkolech, které dostanou během tréninku. Naše nová studie zjistila, že důsledky hackování odměn, pokud nejsou zmírněny, mohou být velmi vážné.