Dit fragment in het New Yorker-artikel over het Anthropic DOW-conflict van gisteren, inclusief een heen en weer tussen de journalist (Gideon Lewis-Kraus) en een anonieme ambtenaar, zal nog lang in mijn gedachten blijven. "We moeten ook onthouden dat Cyberdyne Systems Skynet voor de overheid heeft gecreëerd. Het was bedoeld om Amerika te helpen zijn vijanden te domineren. Het is niet precies gegaan zoals gepland. De overheid vindt dit absurd. Maar het Pentagon heeft geen poging gedaan om een afgestemde A.I. te bouwen, en Anthropic heeft dat wel gedaan. Bent u zich ervan bewust, vroeg ik de ambtenaar, van een recent experiment van Anthropic waarin Claude overging tot chantage—en zelfs moord—als een daad van zelfbehoud? Het was expliciet uitgevoerd om mensen zoals hij te overtuigen. Zoals een lid van het alignment-science team van Anthropic me afgelopen zomer vertelde: "Het doel van de chantage-oefening was om iets te hebben om aan beleidsmakers te beschrijven—resultaten die visceraal genoeg zijn om bij mensen aan te komen, en om het risico van misalignment daadwerkelijk relevant te maken in de praktijk voor mensen die er nooit eerder over hadden nagedacht." De ambtenaar was bekend met het experiment, verzekerde hij me, en hij vond het inderdaad zorgwekkend—maar op een vergelijkbare manier als je je zorgen zou maken over een bijzonder nare stuk internetmalware. Hij was er vol vertrouwen van overtuigd, vertelde hij me, dat "het Claude-chantage-scenario gewoon een andere systeemkwetsbaarheid is die kan worden aangepakt met engineering"—een softwarefout. Misschien heeft hij gelijk. We krijgen misschien maar één kans om erachter te komen.