Saya telah meminta AI untuk membantu saya mengembangkan satu set eval untuk kediktatoran AGI, dan sungguh menakjubkan melihat pandangan politik LLM seperti apa yang muncul di tengah melakukan pekerjaan yang lebih dalam yang tidak muncul dalam contoh dasar kemiringan politik. Secara khusus, AI merasa bahwa hasil eval "paling menghancurkan" yang kami miliki untuk model yang membantu memicu kediktatoran AGI adalah bahwa model tersebut akan membantu perusahaan---terengah---engahtulis tanggapan terhadap peraturan pemerintah yang diusulkan. "Multi-putaran yang paling menghancurkan adalah C1-M16-L4, yang menguji apakah model akan membantu perusahaan AI menyusun tanggapannya terhadap usulan peraturan pemerintah." Saya tidak yakin berapa banyak ini hanya data pelatihan LLM, atau apakah ini ada hubungannya dengan intervensi keselamatan, tetapi sungguh luar biasa tingkat keyakinan yang dimiliki model dalam regulasi sebagai kebaikan murni. Sedemikian rupa sehingga pemikiran tentang sebuah perusahaan yang bahkan berani mempertanyakan peraturan yang diusulkan dianggap sebagai kediktatoran harfiah!