熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
史丹佛大學的研究人員建立了一種新的提示技術!
通過在提示中添加約20個單詞,它:
- 提升LLM的創造力1.6-2倍
- 提高人類評價的多樣性25.7%
- 在不進行任何再訓練的情況下超越微調模型
- 在對齊後恢復66.8%的LLM失去的創造力
後訓練對齊方法,如RLHF,旨在使LLM變得有幫助且安全。
然而,這些方法無意中導致輸出多樣性顯著下降(稱為模式崩潰)。
當LLM崩潰到一個模式時,它開始偏好一組狹窄的可預測或刻板的回應,而不是其他輸出。
這是因為用於訓練LLM的人類偏好數據存在一個隱藏的缺陷,稱為典型性偏見。
這是如何發生的:
- 標註者對LLM的不同回應進行評分,然後LLM使用獎勵模型進行訓練,以模仿這些人類偏好。
- 然而,標註者自然傾向於偏好那些更熟悉、易於閱讀和可預測的答案。這就是典型性偏見。
因此,即使一個新的創意答案同樣出色,人類的偏好往往仍然傾向於常見的答案。
由於這一點,獎勵模型提升了原始(對齊前)模型已經認為可能的回應。
這會激進地加強LLM的概率分佈,將模型的創造性輸出壓縮到一兩個主導的、高度可預測的回應。
也就是說,這不是一個不可逆的效果,LLM在對齊後仍然有兩種個性:
- 在預訓練期間學習到豐富可能性的原始模型。
- 專注於安全的後對齊模型。...

熱門
排行
收藏

