📣新论文!我的人类反馈中有什么?(WIMHF)🔦 人类反馈可能会对大型语言模型(LLMs)产生意想不到或有害的变化,例如过度自信或谄媚。我们如何能够提前预测这些行为? 通过使用SAEs,WIMHF自动从偏好数据中提取这些信号。