变压器中的安静特征学习 这是我本周读过的最有趣的论文之一。 让我来解释一下: 它认为损失曲线可能会误导我们关于模型学习的内容。 监控神经网络训练的默认方法依赖于损失作为主要的进度衡量标准。如果损失保持平坦,则没有任何进展。如果损失下降,则表示正在学习。 但这种假设在算法任务上是失效的。 这项新研究在十个基础算法任务上训练了变压器,并发现了“安静特征”:在损失看似停滞时发展起来的内部表示。 他们发现,模型在输出性能改善之前很久就学习了中间计算步骤。加法中的进位,广度优先搜索中的队列成员资格,乘法中的部分积。这些特征在延长的平稳期中出现,然后突然结合以解决任务。 研究人员探讨了二进制算术(加法、乘法)、图算法(广度优先搜索、最短路径、拓扑排序、最小生成树)和序列优化(最大子数组、活动选择)中的内部表示。 六个任务显示出明显的两阶段转变:长时间的停滞后突然的性能提升。 消融实验确认了因果关系。从64位加法模型中移除进位特征导致准确率下降75.1%。消融广度优先搜索中的队列成员资格导致准确率下降43.6%。 算法任务需要多个子程序共同工作。单个正确的组件在所有部分对齐之前不会降低损失。模型在平坦的损失曲线下积累潜在能力。 看起来交叉熵损失是一个不完整的诊断。尽管指标看似停滞,但实质性的内部学习仍然可以发生。这促使我们需要超越损失曲线的更丰富的监控工具。 🔖(收藏它) 论文: