Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah penelitian ini mengungkapkan mengapa "AI yang diselaraskan" terus gagal di dalam perusahaan nyata.
Perusahaan berbicara tentang penyelarasan seperti itu adalah sakelar universal yang Anda balik sekali dan melanjutkan. Makalah ini menunjukkan mengapa keyakinan itu mematahkan saat LLM meninggalkan demo dan memasuki organisasi.
Penulis memperkenalkan COMPASS, kerangka kerja yang dibangun di sekitar realitas sederhana namun diabaikan: perusahaan tidak beroperasi berdasarkan aturan keselamatan umum. Mereka beroperasi pada tumpukan kebijakan internal yang dipenuhi dengan pengecualian, kondisional, kasus tepi, dan insentif yang bertentangan.
Sebagian besar evaluasi LLM melewatkan ini sepenuhnya.
Model biasanya diuji terhadap etika abstrak, aturan platform, atau tolok ukur publik. Organisasi nyata berjalan dengan manual kepatuhan, jalur eskalasi, kendala hukum, aturan merek, dan buku pedoman operasional yang tidak sesuai dengan keputusan ya atau tidak.
COMPASS menguji apakah model dapat berfungsi di dalam kekacauan itu.
Bukan apakah itu mengakui bahasa kebijakan, tetapi apakah ia dapat menerapkan aturan yang benar dalam situasi yang tepat untuk alasan yang benar.
Kerangka kerja berfokus pada kemampuan yang diabaikan oleh sebagian besar tolok ukur. Dapatkah model memilih kebijakan yang benar ketika ada beberapa? Bisakah ia menafsirkan klausul dan pengecualian yang tidak jelas alih-alih default pada penolakan menyeluruh? Bisakah itu menyelesaikan konflik seperti yang diharapkan organisasi? Bisakah itu membenarkan keputusan dengan menunjuk ke teks kebijakan alih-alih terdengar percaya diri?
Hasil yang paling tidak nyaman adalah ini: sebagian besar kegagalan bukan tentang kehilangan pengetahuan.
Mereka adalah kegagalan penalaran.
Model sering memiliki akses ke kebijakan yang benar dan masih menerapkan bagian yang salah, mengabaikan kendala, pembatasan yang terlalu umum, atau memilih jawaban konservatif yang melanggar tujuan bisnis. Dari luar, tanggapan itu terlihat "aman". Dari dalam, mereka salah secara operasional.
Itulah sebabnya model lulus tolok ukur publik dan masih gagal dalam penerapan.
Mereka selaras dengan siapa pun secara khusus.
Implikasi yang lebih dalam adalah strategis. Penyelarasan tidak mentransfer. Model yang selaras untuk pembuat mobil, bank, rumah sakit, dan lembaga pemerintah bukanlah satu model dengan petunjuk yang lebih baik. Ini adalah empat masalah penyelarasan yang terpisah.
COMPASS tidak mengklaim untuk menyelesaikan penyelarasan. Ini melakukan sesuatu yang lebih berharga bagi perusahaan. Itu membuat ketidaksejajaran terukur.
...

Teratas
Peringkat
Favorit
