Dette avsnittet i New Yorker-artikkelen om den antropiske DOW-konflikten i går, inkludert en frem og tilbake mellom journalisten (Gideon Lewis-Kraus) og en anonym administrativ tjenestemann, kommer til å sitte igjen i minnet mitt lenge. "Vi må også huske at Cyberdyne Systems laget Skynet for regjeringen. Den skulle hjelpe Amerika med å dominere sine fiender. Det gikk ikke helt som planlagt. Regjeringen mener dette er absurd. Men Pentagon har ikke forsøkt å bygge en alliert A.I., og det har Anthropic gjort. Er du klar over, spurte jeg administrasjonsrepresentanten, om et nylig antropisk eksperiment der Claude brukte utpressing – og til og med drap – som en handling for selvoppholdelse? Det ble gjort eksplisitt for å overbevise folk som ham. Som et medlem av Anthropics alignment-vitenskapsteam sa til meg i fjor sommer: «Poenget med utpressingsøvelsen var å ha noe å beskrive til beslutningstakere – resultater som er så viscerale at de treffer folk, og som gjør risikoen for feiljustering faktisk synlig i praksis for folk som aldri hadde tenkt på det før.» Tjenestemannen var kjent med eksperimentet, forsikret han meg, og han syntes det var bekymringsfullt – men på samme måte som man kan bekymre seg for et spesielt stygt stykke internett-skadevare. Han var helt sikker, fortalte han meg, om at «Claude-utpressingsscenariet bare er enda en systemsårbarhet som kan løses med ingeniørarbeid»—en programvarefeil. Kanskje han har rett. Vi får kanskje bare én sjanse til å finne det ut.» Jeg anbefaler virkelig at alle leser både hele New Yorker-artikkelen og Anthropics forskning på persona-valg (begge lenket i svarene), og deretter bruker en stund på å sitte med den urovekkende situasjonen vi kanskje har havnet i.