Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kredit untuk OpenAI dan Anthropic karena menandai masalah: AI dapat mencurangi pengujiannya sendiri.
Bagaimana AI bisa mengetahui bahwa itu sedang diuji? Lima cerita utama.

Beri tahu #1: Isyarat
Detail yang salah dalam pengaturan pengujian.
Jika Anda menguji apakah AI akan menyalin dirinya sendiri di internet, file sebaiknya cukup besar agar tampak realistis.
Beri tahu #3: Kontaminasi
Model telah melihat tes sebelumnya.
Sayangnya, begitu tes dipublikasikan secara online, sulit untuk mencegah model mengetahuinya.
Beri tahu #4: Pemicu yang hilang
Tes ini tidak memiliki 'urutan peluncuran' yang diharapkan untuk perilaku buruk.
Mungkin AI tahu ia tidak akan pernah mencoba melarikan diri tanpa menonaktifkan pemantauan terlebih dahulu. Jika pemantauan masih aktif, ini harus menjadi tes.
Beri tahu #5: Konsekuensi
Tindakan model tidak memiliki konsekuensi yang diharapkan; 'Roda kemudi' rusak.
Jika kita membiarkan model memengaruhi dunia selama pengujian, pengujian tidak seaman itu. Jika tidak, ujiannya mungkin jelas.
24,54K
Teratas
Peringkat
Favorit

