作为人类研究员计划的一部分,我们与@OwainEvans_UK联合发表了一篇论文,研究了一个令人惊讶的现象:潜意识学习。 语言模型可以将其特征传递给其他模型,即使是在看似无意义的数据中。
Owain Evans
Owain Evans2025年7月23日
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
潜意识学习可以发生在良性特征(例如喜欢老鹰)或更令人担忧的特征(例如不一致性)上。这对基于模型生成的数据的训练有影响。 在我们的对齐科学博客上阅读更多内容:
240.67K