一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

斯坦福大学的研究人员开发了一种新的提示技术！通过在提示中添加约20个单词，它： - 提高了LLM的创造力1.6-2倍 - 人类评分的多样性提高了25.7% - 超过了未经过任何再训练的微调模型 - 恢复了66.8%因对齐而失去的LLM创造力后训练对齐方法，如RLHF，旨在使LLM变得有用和安全。然而，这些方法无意中导致输出多样性显著下降（称为模式崩溃）。当LLM崩溃到某个模式时，它开始偏向一组狭窄的可预测或刻板的响应，而不是其他输出。这种情况发生是因为用于训练LLM的人类偏好数据存在一个隐藏的缺陷，称为典型性偏见。这就是发生的方式： - 注释者对LLM的不同响应进行评分，随后，LLM使用奖励模型进行训练，以模仿这些人类偏好。 - 然而，注释者自然倾向于偏好那些更熟悉、易于阅读和可预测的答案。这就是典型性偏见。因此，即使一个新的、创造性的答案同样优秀，人类的偏好往往倾向于常见的答案。由于这个原因，奖励模型提升了原始（对齐前）模型已经认为可能的响应。这大幅度锐化了LLM的概率分布，使模型的创造性输出崩溃为一到两个主导的、高度可预测的响应。也就是说，这并不是不可逆转的效果，LLM在对齐后仍然有两种个性： - 在预训练期间学习到丰富可能性的原始模型。 - 以安全为重点的后对齐模型。...