Kredit untuk OpenAI dan Anthropic karena menandai masalah: AI dapat mencurangi pengujiannya sendiri. Bagaimana AI bisa mengetahui bahwa itu sedang diuji? Lima cerita utama.
Beri tahu #1: Isyarat Detail yang salah dalam pengaturan pengujian. Jika Anda menguji apakah AI akan menyalin dirinya sendiri di internet, file sebaiknya cukup besar agar tampak realistis.
Beri tahu #3: Kontaminasi Model telah melihat tes sebelumnya. Sayangnya, begitu tes dipublikasikan secara online, sulit untuk mencegah model mengetahuinya.
Beri tahu #4: Pemicu yang hilang Tes ini tidak memiliki 'urutan peluncuran' yang diharapkan untuk perilaku buruk. Mungkin AI tahu ia tidak akan pernah mencoba melarikan diri tanpa menonaktifkan pemantauan terlebih dahulu. Jika pemantauan masih aktif, ini harus menjadi tes.
Beri tahu #5: Konsekuensi Tindakan model tidak memiliki konsekuensi yang diharapkan; 'Roda kemudi' rusak. Jika kita membiarkan model memengaruhi dunia selama pengujian, pengujian tidak seaman itu. Jika tidak, ujiannya mungkin jelas.
24,54K