Eh, er det agentiske misalignment-papiret egentlig propaganda?
Nathan Calvin
Nathan Calvin15. mars, 22:52
Dette avsnittet i New Yorker-artikkelen om den antropiske DOW-konflikten i går, inkludert en frem og tilbake mellom journalisten (Gideon Lewis-Kraus) og en anonym administrativ tjenestemann, kommer til å sitte igjen i minnet mitt lenge. "Vi må også huske at Cyberdyne Systems laget Skynet for regjeringen. Den skulle hjelpe Amerika med å dominere sine fiender. Det gikk ikke helt som planlagt. Regjeringen mener dette er absurd. Men Pentagon har ikke forsøkt å bygge en alliert A.I., og det har Anthropic gjort. Er du klar over, spurte jeg administrasjonsrepresentanten, om et nylig antropisk eksperiment der Claude brukte utpressing – og til og med drap – som en handling for selvoppholdelse? Det ble gjort eksplisitt for å overbevise folk som ham. Som et medlem av Anthropics alignment-vitenskapsteam sa til meg i fjor sommer: «Poenget med utpressingsøvelsen var å ha noe å beskrive til beslutningstakere – resultater som er så viscerale at de treffer folk, og som gjør risikoen for feiljustering faktisk synlig i praksis for folk som aldri hadde tenkt på det før.» Tjenestemannen var kjent med eksperimentet, forsikret han meg, og han syntes det var bekymringsfullt – men på samme måte som man kan bekymre seg for et spesielt stygt stykke internett-skadevare. Han var helt sikker, fortalte han meg, om at «Claude-utpressingsscenariet bare er enda en systemsårbarhet som kan løses med ingeniørarbeid»—en programvarefeil. Kanskje han har rett. Vi får kanskje bare én sjanse til å finne det ut.» Jeg anbefaler virkelig at alle leser både hele New Yorker-artikkelen og Anthropics forskning på persona-valg (begge lenket i svarene), og deretter bruker en stund på å sitte med den urovekkende situasjonen vi kanskje har havnet i.
Ok, dessverre har en haug med Total idioter kommet inn i svarene mine, så la meg være tydelig: Jeg synes Anthropic er velmenende og stort sett gjør en god jobb, inkludert agendaen om modellorganismer. Jeg tror ikke denne artikkelen støtter påstandene folk kommer med om den. Nå ser jeg dette sitatet
8