Makalah DeepMind ini diam-diam membunuh kebohongan paling menghibur dalam keamanan AI. Gagasan bahwa keselamatan adalah tentang bagaimana model berperilaku sebagian besar waktu terdengar masuk akal. Juga salah saat skala sistem. DeepMind menunjukkan mengapa rata-rata berhenti penting ketika penerapan mencapai jutaan interaksi. Makalah tersebut membingkai ulang keamanan AGI sebagai masalah distribusi. Yang penting bukanlah perilaku yang khas. Itu ekornya. Kegagalan langka. Kasus tepi. Peristiwa probabilitas rendah yang terasa diabaikan dalam tes tetapi menjadi tak terelakkan di dunia nyata. Tolok ukur, tim merah, dan demo semuanya mengambil sampel di tengah. Penerapan mengambil sampel semuanya. Pengguna aneh, insentif aneh, loop umpan balik yang tidak bersahabat, lingkungan yang tidak direncanakan oleh siapa pun. Dalam skala besar, kasus-kasus tersebut berhenti menjadi langka. Mereka dijamin. Inilah wawasan yang tidak nyaman: kemajuan dapat membuat sistem terlihat lebih aman sekaligus diam-diam membuatnya lebih berbahaya. Jika kemampuan tumbuh lebih cepat daripada kontrol ekor, kegagalan yang terlihat menurun sementara risiko bencana menumpuk di luar layar. Dua model rata-rata dapat terlihat identik dan masih sangat berbeda dalam perilaku terburuk. Evaluasi saat ini tidak dapat melihat kesenjangan itu. Kerangka kerja tata kelola berasumsi bahwa mereka bisa. Anda tidak dapat mensertifikasi keselamatan dengan pengujian terbatas ketika risiko hidup dalam pergeseran distribusi. Anda tidak pernah menguji sistem yang benar-benar Anda terapkan. Anda mencicipi masa depan yang tidak Anda kendalikan. Itulah punchline yang sebenarnya. Keamanan AGI bukanlah atribut model. Ini adalah masalah sistem. Konteks penyebaran, insentif, pemantauan, dan seberapa besar risiko ekor yang ditoleransi masyarakat semuanya lebih penting daripada rata-rata bersih. Makalah ini tidak meyakinkan. Itu menghilangkan ilusi. Pertanyaannya bukan apakah model biasanya berperilaku baik. Itulah yang terjadi ketika tidak — dan seberapa sering itu diizinkan sebelum skala membuatnya tidak dapat diterima. Kertas: