一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

📣新文件！我的人類反饋中有什麼？(WIMHF) 🔦 人類反饋可能會對大型語言模型（LLMs）產生意想不到或有害的變化，例如過度自信或諂媚。我們如何能提前預測這些行為？使用SAEs，WIMHF自動從偏好數據中提取這些信號。