一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

📣新论文！我的人类反馈中有什么？（WIMHF）🔦 人类反馈可能会对大型语言模型（LLMs）产生意想不到或有害的变化，例如过度自信或谄媚。我们如何能够提前预测这些行为？通过使用SAEs，WIMHF自动从偏好数据中提取这些信号。