我与人类和大型语言模型(LLMs)互动中有两个有趣的参数:凝聚力和普遍性。凝聚力描述了当你推动它们时,政策和信念的稳定性,而普遍性描述了新观察、事实和想法的整合能力。
有些人比其他人更具凝聚力和/或普遍性。如果你把人放入感官剥夺或邪教环境中,他们往往会以不同的速度和速率失去理智,这通过幻觉和不理性的政策变化显而易见。
我们能否构建一个一致性基准,直接比较人类和大型语言模型(LLM)的凝聚力和普遍性?“LLM 精神病”描述了一种情况,即 LLM 的凝聚力超过人类对话者,因此人类被干扰。“越狱”则是相反的情况。
5.02K