Вы меняете одно слово в заявлении на кредит: религия. LLM отклоняет его. Вернуть обратно? Одобрено. Модель никогда не упоминает религию. Она просто по-другому формулирует тот же коэффициент долга, чтобы оправдать противоположные решения. Мы создали систему для выявления этих скрытых предвзятостей 🧵1/13