一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

嗨！一种训练神经网络的新方法：基于旧的AI理念的重新排列，混合了视频游戏中的“存档重载”。这是一种强制“踢”的方法，可以在某些模型类型（尤其是小型或特殊拓扑）卡住时将其救回。盲目。进化。压力。

我称之为“挫折”：就像重启一个保存的电子游戏并重试Boss战。怎么做？取一个最后已知良好（LKG）时期，然后你杀死一个神经元。然后重新训练。与Dropout不同，损害不是批次中的瞬时噪声。我们在模型改进后再破坏它。

在挫折（持续的[随机]消融）中，损害是一个必须在下一个纪元中同时避免和填补的坑洞。两种策略：杀死一个神经元的所有权重（就像在隐藏层中一样），或者仅仅是传入的权重（就像输出logit一样）。

我们测试了简单的 MLP 网络拓扑，从数百万个参数到数百个参数， cataloging 了它们的 "可训练性"，基于宽度（# 个神经元）与深度（# 层）的对比。 PSA 拯救了一些 Dropout 和 Weight Decay 无法处理的模型：一个混沌状态（蓝色）。

这在破损的设计中也有效，在这些设计中，消失梯度问题使得反向传播变得无用。（当你没有跳过连接时，这并不是那么多层！）此外，你可以分割损坏，并在不同的GPU上同时训练多个损坏的LKG。

这篇论文反映了第一个概念验证，没错，整个想法有很多局限性。尤其是齿轮的计算浪费，或者它是在 MNIST 数据集（一个玩具）上，而不是 ImageNet。但好消息！早期的 ResMLP 测试显示出有希望的结果！

我们确实尝试过全面测试。我们测试了98种拓扑结构，其中许多具有参数匹配配置（不同的维度，相同的结果参数数量）。我们对3种不同的PSA技术与3个对照组进行了测量，每组进行了10次试验。总共进行了5,880次试验。可重复。

即使在消失梯度问题本应使训练变得不可能的情况下（例如在一个18x18的简单多层感知器中），PSA仍然能够通过攻击MNIST上的输出logits进行训练。不相信我？试试看！

这里有很多很酷的小 "aha" 时刻。请记住，所有的基本想法都不是新的。我们只是以一种新的方式排列它们，以尝试一些只有在 GPU 如此强大时才真正可行的事情。

未来的工作： • 在 ResMLP、CNN 和 Transformers 上重现原始测试（ResMLP 修复了 VGP，但对于病态拓扑，PSA 似乎仍然有帮助） • 在 ImageNet 上尝试 <- 成本高，但这是我们需要的真正证明。

观察： • 一直杀死相同的输出logit会持续产生“反专家”模型，当你查看它们的混淆矩阵时，你可以看到阅读障碍的表现（杀死2后，分类溢出到5、7和8） • 我们不必坚持随机攻击

这有什么价值？ • 如果它在更大的数据集和现代模型架构上有效，那么我希望它能成为构建小型语言模型（SLMs）的有价值工具。

GitHub 上的论文和代码在这里：

1.53K

热门

排行

收藏