史丹佛大學的研究人員建立了一種新的提示技術! 通過在提示中添加約20個單詞,它: - 提升LLM的創造力1.6-2倍 - 提高人類評價的多樣性25.7% - 在不進行任何再訓練的情況下超越微調模型 - 在對齊後恢復66.8%的LLM失去的創造力 後訓練對齊方法,如RLHF,旨在使LLM變得有幫助且安全。 然而,這些方法無意中導致輸出多樣性顯著下降(稱為模式崩潰)。 當LLM崩潰到一個模式時,它開始偏好一組狹窄的可預測或刻板的回應,而不是其他輸出。 這是因為用於訓練LLM的人類偏好數據存在一個隱藏的缺陷,稱為典型性偏見。 這是如何發生的: - 標註者對LLM的不同回應進行評分,然後LLM使用獎勵模型進行訓練,以模仿這些人類偏好。 - 然而,標註者自然傾向於偏好那些更熟悉、易於閱讀和可預測的答案。這就是典型性偏見。 因此,即使一個新的創意答案同樣出色,人類的偏好往往仍然傾向於常見的答案。 由於這一點,獎勵模型提升了原始(對齊前)模型已經認為可能的回應。 這會激進地加強LLM的概率分佈,將模型的創造性輸出壓縮到一兩個主導的、高度可預測的回應。 也就是說,這不是一個不可逆的效果,LLM在對齊後仍然有兩種個性: - 在預訓練期間學習到豐富可能性的原始模型。 - 專注於安全的後對齊模型。...