RoPE 从根本上是有缺陷的。 本文表明,RoPE 混淆了“一个 token 是什么”和“它在哪里”,因此模型无法可靠地独立于 token 身份推理相对位置。 例如,“向左 3 个 token”的有效概念微妙地依赖于涉及的字母,因此询问“在序列 'ABSCOPZG' 中,Z 左侧 3 个字母是什么”变得比应该更困难,因为位置标尺本身随着内容而变化。 因此,本文提出了 PoPE,它通过独立于 token 的身份编码位置,为模型提供了一个固定的位置标尺,让“内容”仅控制匹配强度,而“位置”单独控制距离。 在间接索引任务中,PoPE 达到了 95% 的准确率,而 RoPE 只能停留在 11%。