Uhh apakah makalah ketidaksejajaran agen sebenarnya propaganda?
Nathan Calvin
Nathan Calvin15 Mar, 22.52
Bagian dalam artikel New Yorker tentang konflik Anthropic DOW kemarin, termasuk bolak-balik antara jurnalis (Gideon Lewis-Kraus) dan seorang pejabat admin anonim, akan melekat di benak saya untuk waktu yang lama. "Kita juga harus ingat bahwa Cyberdyne Systems menciptakan Skynet untuk pemerintah. Itu seharusnya membantu Amerika mendominasi musuh-musuhnya. Itu tidak benar-benar berjalan sesuai rencana. Pemerintah menganggap ini tidak masuk akal. Tetapi Pentagon belum mencoba membangun AI yang selaras, dan Anthropic telah melakukannya. Apakah Anda sadar, saya bertanya kepada pejabat Administrasi, tentang eksperimen Antropik baru-baru ini di mana Claude menggunakan pemerasan—dan bahkan pembunuhan—sebagai tindakan pelestarian diri? Itu dilakukan secara eksplisit untuk meyakinkan orang-orang seperti dia. Seperti yang dikatakan oleh seorang anggota tim ilmu keselarasan Anthropic musim panas lalu, "Inti dari latihan pemerasan adalah untuk memiliki sesuatu untuk dijelaskan kepada pembuat kebijakan—hasil yang cukup mendalam untuk mendarat dengan orang-orang, dan membuat risiko ketidakselarasan benar-benar menonjol dalam praktik bagi orang-orang yang belum pernah memikirkannya sebelumnya." Pejabat itu akrab dengan eksperimen itu, dia meyakinkan saya, dan dia menganggapnya mengkhawatirkan — tetapi dengan cara yang sama seperti orang mungkin khawatir tentang malware internet yang sangat jahat. Dia sangat yakin, katanya kepada saya, bahwa "skenario pemerasan Claude hanyalah kerentanan sistem lain yang dapat diatasi dengan rekayasa"—kesalahan perangkat lunak. Mungkin dia benar. Kita mungkin hanya mendapatkan satu kesempatan untuk mengetahuinya." Saya benar-benar merekomendasikan semua orang membaca bagian lengkap New Yorker dan penelitian Anthropic tentang pemilihan persona (keduanya ditautkan dalam balasan) dan kemudian menghabiskan waktu untuk duduk dengan situasi yang membingungkan yang mungkin kita hadapi.
oke sayangnya sekelompok orang bodoh Total telah masuk ke dalam jawaban saya, jadi izinkan saya memperjelas: Saya pikir Anthropic berniat baik dan sebagian besar melakukan pekerjaan yang baik termasuk agenda organisme model. Saya tidak berpikir makalah ini mendukung klaim orang tentang hal itu. Sekarang saya melihat kutipan ini
9