Eh, je ten dokument o agentickém nesouladu vlastně propaganda?
Nathan Calvin
Nathan Calvin15. 3. 22:52
Tato pasáž v článku v New Yorkeru o anthropickém konfliktu DOW včera, včetně vzájemné výměny názorů mezi novinářem (Gideon Lewis-Kraus) a anonymním administrativním úředníkem, mi zůstane v paměti ještě dlouho. "Musíme si také pamatovat, že Cyberdyne Systems vytvořila Skynet pro vládu. Mělo to pomoci Americe dominovat jejím nepřátelům. Nešlo to úplně podle plánu. Vláda to považuje za absurdní. Pentagon se však nepokusil vybudovat sladěnou umělou inteligenci, zatímco Anthropic ano. Jste si vědomi, zeptal jsem se úředníka administrativy, o nedávném experimentu s antropikou, při kterém Claude sáhl k vydírání – a dokonce i k vraždě – jako akt sebezáchovy? Bylo to provedeno výslovně, aby přesvědčili lidi jako on. Jak mi loni v létě řekl člen týmu Anthropic pro vědu o zarovnání: "Smyslem vydírání bylo mít něco, co lze popsat tvůrcům politik – výsledky, které jsou natolik silné, že zapůsobí na lidi a učiní riziko nesouladu skutečně významným v praxi pro ty, kteří o tom nikdy předtím nepřemýšleli." Úředník byl s experimentem obeznámen, ujistil mě, a skutečně ho znepokojoval – ale podobně, jako by se člověk obával obzvlášť škodlivého internetového malwaru. Byl si naprosto jistý, jak mi řekl, že "scénář vydírání Claudea je jen další zranitelnost systému, kterou lze řešit inženýry" – softwarová chyba. Možná má pravdu. Možná budeme mít jen jednu šanci to zjistit." Opravdu doporučuji všem přečíst si celý článek v New Yorkeru i výzkum Anthropic o výběru person (obojí je odkazováno v odpovědích) a pak si chvíli sednout do znepokojující situace, do které jsme se možná dostali.
Bohužel se do mých odpovědí objevilo spousta naprostých idiotů, takže chci být jasný: myslím, že Anthropic to myslí dobře a většinou odvádí dobrou práci, včetně agendy modelových organismů. Nemyslím si, že tento článek podporuje tvrzení, která lidé o něm uvádějí. Teď vidím tento citát
4