這篇 NVIDIA 的論文讓我大開眼界。 大家都在談論用更大的集群和更智能的優化器來擴展變壓器……同時 NVIDIA 和牛津大學剛剛展示了可以使用進化策略訓練十億參數的模型,這是一種大多數人認為已經過時的方法。 這個技巧是一個叫做 EGGROLL 的新系統,它顛覆了進化策略的整個成本模型。 通常,進化策略在擴展時會失敗,因為你必須為每個種群成員生成全秩擾動矩陣。對於十億參數的模型,這意味著瘋狂的內存移動和荒謬的計算。 這些人通過使用兩個瘦矩陣 A 和 B 生成低秩擾動,並讓 ABᵀ 作為更新來解決這個問題。 然後,種群平均值的行為就像全秩更新,但不需要支付全秩的價格。 結果是? 他們以數十萬的種群規模運行進化策略,這是早期工作無法觸及的數字,因為一切在內存壓力下都崩潰了。現在,吞吐量基本上和批量推理一樣快。 這對於任何無梯度的方法來說都是前所未聞的。 數學也檢查過了。 低秩近似以 1/r 的速度收斂到真實的進化策略梯度,因此推動秩重建全進化策略行為,而不會引發計算爆炸。 但實驗才是最瘋狂的地方。 → 他們從零開始預訓練循環語言模型,只使用整數數據類型。沒有梯度。沒有反向傳播。即使在超大規模下也完全穩定。 → 他們在 LLM 推理基準上匹配 GRPO 級別的方法。 這意味著進化策略可以在真實任務上與現代的強化學習推理方法競爭。 → 進化策略突然變得適用於大規模、離散、混合和非可微系統,正是反向傳播痛苦或不可能的地方。 ...