这篇NVIDIA的论文让我大脑崩溃。 每个人都在谈论用更大的集群和更智能的优化器来扩展变压器……与此同时,NVIDIA和牛津大学刚刚展示了可以使用进化策略训练十亿参数模型,这种方法大多数人认为是古老的。 诀窍是一个叫做EGGROLL的新系统,它颠覆了进化策略的整个成本模型。 通常,进化策略在规模上会失败,因为你必须为每个种群成员生成全秩扰动矩阵。对于十亿参数模型,这意味着疯狂的内存移动和荒谬的计算。 这些家伙通过使用两个瘦矩阵A和B生成低秩扰动,并让ABᵀ作为更新来解决这个问题。 种群平均值的行为就像全秩更新,但不需要支付全秩的代价。 结果是什么? 他们以数十万的种群规模运行进化策略,而早期的工作无法触及这个数字,因为一切在内存压力下都崩溃了。现在,吞吐量基本上和批量推理一样快。 这在任何无梯度方法中都是前所未闻的。 数学也能验证。 低秩近似以1/r的速率收敛到真实的进化策略梯度,因此推动秩重现全进化策略行为,而没有计算爆炸。 但实验才是疯狂的地方。 → 他们从头开始预训练递归语言模型,仅使用整数数据类型。没有梯度。没有反向传播。即使在超大规模下也完全稳定。 → 他们在LLM推理基准上匹配GRPO级别的方法。 这意味着进化策略可以在真实任务上与现代的基于强化学习的推理方法竞争。 → 进化策略突然变得适用于大规模、离散、混合和非可微系统,正是反向传播痛苦或不可能的地方。 ...