Sangat menarik bahwa gagasan evaluasi kemampuan berbahaya pertama kali berasal dari konteks di mana banyak komentar publik berlabuh pada burung beo stokastik dan "AI tidak dapat menghasilkan jari, bagaimana bisa menjadi ancaman di luar bias?" Jadi sangat masuk akal untuk membangun versi mainan dengan penggunaan berbahaya untuk mengkomunikasikan dengan lebih baik apa yang mungkin, terutama mengingat intuisi yang benar dari orang-orang keamanan bahwa kemajuan tidak akan berhenti di sini: bahkan jika AI gagal, akan mudah untuk menunjukkan bahwa mereka menjadi lebih baik dari waktu ke waktu. Masalahnya adalah bahwa ini bekerja terlalu baik dan orang-orang melupakan bagian 'versi mainan' dari evals, dengan media melaporkan 'pemerasan' atau model yang melakukannya dengan baik pada MCQ virologi dasar atau menghasilkan kode dasar untuk malware sebagai kesepakatan besar - mereka tidak. Tapi tentu saja banyak advokat suka menggunakannya untuk menggambarkan mengapa regulasi diperlukan lebih dari sebelumnya, atau melebih-lebihkan betapa buruknya hal-hal (meme 'ini baik-baik saja', dll). Orang-orang membuat klaim yang dipertanyakan tentang 'model berbahaya', dipicu oleh penghindaran risiko yang mendalam yang menjadi ciri lapangan. Sejak itu bidang ini telah matang dan evaluasi terlihat lebih baik, sebagian karena sisi keamanan harus benar-benar terlibat dengan pakar domain di bio atau dunia maya daripada mencoba mengerjakan semuanya dari prinsip pertama. Meskipun saya masih menemukan banyak eval dasar, statis, dan tidak valid secara eksternal - mereka tetap menjadi indikator penting. Tetapi model ancaman spesifik terus diperdebatkan, dan tetap menjadi pertanyaan terbuka apakah AI akan secara material mengubah keseimbangan pertahanan serangan dalam keamanan siber. Laporan Anthropic baru-baru ini adalah pekerjaan yang hebat tetapi tampaknya tidak terlalu besar karena jenis serangan ini cukup umum; Tentu ada lebih banyak otomatisasi yang terlibat dan itu harus dipelajari, tetapi itu saja jelas akan terjadi pada tingkat difusi tertentu. Anda harus mengharapkan orang jahat untuk menggunakan teknologi juga. Yang harus kita perhatikan adalah apakah ini menciptakan asimetri bertahap dan secara signifikan meningkatkan kerusakan/biaya/tebusan + sejauh mana pertahanan siber/infrastruktur penting diperkuat secara paralel. Imo kita harus memiliki priori yang lebih menyukai "keseimbangan berantakan" daripada "keunggulan pelanggaran sepihak".