斯坦福大学的研究人员开发了一种新的提示技术! 通过在提示中添加约20个单词,它: - 提高了LLM的创造力1.6-2倍 - 人类评分的多样性提高了25.7% - 超过了未经过任何再训练的微调模型 - 恢复了66.8%因对齐而失去的LLM创造力 后训练对齐方法,如RLHF,旨在使LLM变得有用和安全。 然而,这些方法无意中导致输出多样性显著下降(称为模式崩溃)。 当LLM崩溃到某个模式时,它开始偏向一组狭窄的可预测或刻板的响应,而不是其他输出。 这种情况发生是因为用于训练LLM的人类偏好数据存在一个隐藏的缺陷,称为典型性偏见。 这就是发生的方式: - 注释者对LLM的不同响应进行评分,随后,LLM使用奖励模型进行训练,以模仿这些人类偏好。 - 然而,注释者自然倾向于偏好那些更熟悉、易于阅读和可预测的答案。这就是典型性偏见。 因此,即使一个新的、创造性的答案同样优秀,人类的偏好往往倾向于常见的答案。 由于这个原因,奖励模型提升了原始(对齐前)模型已经认为可能的响应。 这大幅度锐化了LLM的概率分布,使模型的创造性输出崩溃为一到两个主导的、高度可预测的响应。 也就是说,这并不是不可逆转的效果,LLM在对齐后仍然有两种个性: - 在预训练期间学习到丰富可能性的原始模型。 - 以安全为重点的后对齐模型。...