热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
嗨!一种训练神经网络的新方法:基于旧的AI理念的重新排列,混合了视频游戏中的“存档重载”。
这是一种强制“踢”的方法,可以在某些模型类型(尤其是小型或特殊拓扑)卡住时将其救回。
盲目。进化。压力。

我称之为“挫折”:就像重启一个保存的电子游戏并重试Boss战。
怎么做?
取一个最后已知良好(LKG)时期,然后你杀死一个神经元。然后重新训练。
与Dropout不同,损害不是批次中的瞬时噪声。
我们在模型改进后再破坏它。

在挫折(持续的[随机]消融)中,损害是一个必须在下一个纪元中同时避免和填补的坑洞。
两种策略:杀死一个神经元的所有权重(就像在隐藏层中一样),或者仅仅是传入的权重(就像输出logit一样)。

我们测试了简单的 MLP 网络拓扑,从数百万个参数到数百个参数, cataloging 了它们的 "可训练性",基于宽度(# 个神经元)与深度(# 层)的对比。
PSA 拯救了一些 Dropout 和 Weight Decay 无法处理的模型:一个混沌状态(蓝色)。

这在破损的设计中也有效,在这些设计中,消失梯度问题使得反向传播变得无用。
(当你没有跳过连接时,这并不是那么多层!)
此外,你可以分割损坏,并在不同的GPU上同时训练多个损坏的LKG。

这篇论文反映了第一个概念验证,没错,整个想法有很多局限性。
尤其是齿轮的计算浪费,或者它是在 MNIST 数据集(一个玩具)上,而不是 ImageNet。
但好消息!早期的 ResMLP 测试显示出有希望的结果!

我们确实尝试过全面测试。我们测试了98种拓扑结构,其中许多具有参数匹配配置(不同的维度,相同的结果参数数量)。
我们对3种不同的PSA技术与3个对照组进行了测量,每组进行了10次试验。
总共进行了5,880次试验。
可重复。

即使在消失梯度问题本应使训练变得不可能的情况下(例如在一个18x18的简单多层感知器中),PSA仍然能够通过攻击MNIST上的输出logits进行训练。
不相信我?试试看!

这里有很多很酷的小 "aha" 时刻。请记住,所有的基本想法都不是新的。我们只是以一种新的方式排列它们,以尝试一些只有在 GPU 如此强大时才真正可行的事情。

未来的工作:
• 在 ResMLP、CNN 和 Transformers 上重现原始测试(ResMLP 修复了 VGP,但对于病态拓扑,PSA 似乎仍然有帮助)
• 在 ImageNet 上尝试 <- 成本高,但这是我们需要的真正证明。
观察:
• 一直杀死相同的输出logit会持续产生“反专家”模型,当你查看它们的混淆矩阵时,你可以看到阅读障碍的表现(杀死2后,分类溢出到5、7和8)
• 我们不必坚持随机攻击
这有什么价值?
• 如果它在更大的数据集和现代模型架构上有效,那么我希望它能成为构建小型语言模型(SLMs)的有价值工具。
GitHub 上的论文和代码在这里:

1.53K
热门
排行
收藏

