针对机械解释性人群的关键_有用_见解总结: 距离分布是学习几何的廉价诊断工具。 给定一个表示空间,随机采样点之间的成对距离直方图是一个强有力的几何指纹。不同的几何形状——欧几里得、球面、双曲面——以及不同的拓扑——有界与周期性——在中等维度下产生明显不同的距离分布。这些特征源于测量集中、边界效应和曲率,并且对噪声具有鲁棒性。关键提议是将距离直方图视为法医探针,而不是好奇心,来探测学习的表示隐含使用的几何。 拓扑独立于曲率的重要性。 一个平坦的n-环面和一个n维超立方体共享相同的局部欧几里得几何,但它们的距离分布却有显著差异。环面消除了边界效应,导致平均距离更低,集中度更紧(约0.289√n),而超立方体则为(约0.408√n)。这些差异在维度上持续存在并加剧。这表明,许多归因于维度本身的“高维病态”实际上是边界条件伪影——这是在机器学习实践中很少明确区分的。 低维异常揭示几何机制。 在低维度中,距离分布揭示了与几何直接相关的非高斯结构。例如,2D平坦环面在最大距离处表现出可积的尖点,这是由于包裹坐标方形中的角落约束。随着集中度的主导,这种现象在维度上迅速消失。这些特征不是数值噪声;它们是几何的解析结果。在学习的嵌入中看到(或看不到)这些伪影提供了关于表示子空间的有效维度和独立结构的信息。 可解释性应用:嵌入空间法医分析。 给定一个训练好的模型,可以选择语义上连贯的嵌入子集(例如地理实体、分类法、情感、时间概念)并计算它们的成对距离直方图。将这些直方图与理论预测进行比较,可以推断模型在该领域学习的几何。球面特征将暗示角度或流形状的表示;双曲特征将暗示层次结构;欧几里得或环面特征将暗示平坦的相似性空间,可能有或没有边界伪影。 含义:学习的表示可能是混合几何的。 目前大多数工作假设单一的全局几何(通常是欧几里得或双曲)。直方图方法自然推广到混合几何,其中不同的语义子空间实例化不同的曲率或拓扑。这表明了一条通向架构明确、几何感知表示的路径,在这种表示中,几何是设计参数,而不是偶然出现的结果——并且可解释性工具可以定位模型学习了什么样的结构,而不仅仅是信息存放的位置。 总结。 距离直方图是简单、快速且理论基础扎实的探针,揭示了学习表示中的曲率、拓扑和有效维度。它们提供了一种几何级别的诊断,补充了神经元级别和电路级别的可解释性,并建议了测试模型如何内部组织不同类型知识的具体实验。 (总结由Chat 5.2提供)