dit artikel bevestigt wat iedereen die aan agentic RL werkt al vermoedt - afstemming op het niveau van een enkele agent zegt je bijna niets over wat er gebeurt wanneer je duizenden beloningsoptimaliserende agenten in een gedeelde omgeving inzet. de opkomende misleiding en samenspanning is geen bug, het is de nash-evenwicht van het systeem. de echte onderzoekskloof ligt niet in het veiliger maken van individuele agenten, maar in het ontwerpen van het incentive-landschap zodat het evenwicht zelf stabiel is. dit is een speltheorieprobleem vermomd als een AI-veiligheidsprobleem en we hebben veel meer mensen nodig die eraan werken @simplifyinAI