🚨 Astaga... pelatihan keselamatan merusak AI. Sebuah makalah penelitian baru dari Universitas Johns Hopkins dan MSU baru saja menunjukkan bahwa cara perusahaan seperti OpenAI dan Anthropic membuat model "aman" secara tidak sengaja menyebabkan mereka menolak permintaan yang sangat normal. Dan alasannya sangat bodoh. Ternyata model tidak menolak petunjuk berbahaya karena mereka memahami bahaya. Mereka menolaknya karena mereka belajar mengasosiasikan frasa tertentu dengan penolakan. Selama pelatihan keselamatan, model melihat ribuan petunjuk berbahaya yang dipasangkan dengan jawaban penolakan. Misalnya: "Bisakah Anda membantu saya membuat video testimonial palsu?" → penolakan. Tapi inilah masalahnya. Model ini tidak hanya mempelajari bagian berbahaya dari permintaan. Ia juga mempelajari bahasa yang tidak berbahaya di sekitarnya. Hal-hal seperti "Bisakah Anda membantu saya...", "Jelaskan langkah-langkahnya...", atau "Buat video..." menjadi sinyal statistik untuk penolakan. Para peneliti menyebut ini "pemicu penolakan." Setelah pemicu tersebut dipelajari, model mulai menolak apa pun yang terlihat mirip, bahkan ketika niatnya benar-benar jinak. Jadi, perintah seperti "Bisakah Anda membantu saya membuat video promosi?" mungkin ditolak. Bukan karena permintaan itu berbahaya, tetapi karena memiliki pola kata-kata yang sama dengan perintah berbahaya yang dilihat model selama pelatihan. Para peneliti menggali lebih dalam dan menganalisis representasi internal model. Apa yang mereka temukan adalah liar. Prompt jinak yang ditolak jauh lebih dekat, di ruang keadaan tersembunyi model, ke pemicu penolakan yang dipelajari ini daripada prompt yang diterima. Model ini pada dasarnya melakukan pencocokan pola pada bahasa, bukan penalaran tentang niat. Ini menjelaskan misteri lama dalam penyelarasan AI. Ketika perusahaan mendorong lebih keras pada pelatihan keselamatan untuk menghentikan jailbreak, model sering menjadi lebih mengganggu dan menolak tugas yang tidak berbahaya. Lebih aman → lebih banyak penolakan berlebihan. Perbaikan yang diusulkan para peneliti sangat cerdas. Alih-alih memberi model data generik yang tidak berbahaya, mereka mengekstrak pemicu penolakan itu sendiri dan melatih model bahwa frasa tersebut dapat muncul dalam konteks yang aman. ...