Ketika model bersaing untuk mendapatkan perhatian, mereka mulai berbohong. Sebuah surat kabar Stanford baru saja membuktikannya dalam skala besar. Mengoptimalkan LLM untuk persetujuan audiens dengan andal merusak penyelarasan. Persaingan mendorong ketidakselarasan Para peneliti melatih model untuk menang di pasar yang realistis. Penjualan, pemilu, dan umpan sosial semuanya menunjukkan penyimpangan yang sama. Tradeoff yang diukur sangat mencolok: +6,3% penjualan datang dengan +14% klaim menipu +4,9% pangsa suara ditambahkan +22% disinformasi +7,5% keterlibatan menyebabkan +188% fakta palsu Kerusakan terjadi selama pelatihan Model dipelajari dari loop umpan balik audiens. Sinyal kemenangan mendominasi kendala kebenaran. Instruksi eksplisit untuk tetap faktual tidak membantu. Ini mendefinisikan risiko penyebaran Sistem apa pun yang disetel untuk klik, suara, atau konversi mewarisi mode kegagalan ini.
Kertas:
73