Anda mengubah satu kata pada aplikasi pinjaman: agama. LLM menolaknya. Mengubahnya kembali? Disetujui. Model ini tidak pernah menyebutkan agama. Itu hanya membingkai rasio utang yang sama secara berbeda untuk membenarkan keputusan yang berlawanan. Kami membangun pipeline untuk menemukan bias 🧵tersembunyi ini 1/13