📣新文件!我的人類反饋中有什麼?(WIMHF) 🔦 人類反饋可能會對大型語言模型(LLMs)產生意想不到或有害的變化,例如過度自信或諂媚。我們如何能提前預測這些行為? 使用SAEs,WIMHF自動從偏好數據中提取這些信號。