Dieses NVIDIA-Papier hat gerade mein Gehirn zum Platzen gebracht. Alle reden ständig darüber, Transformer mit größeren Clustern und intelligenteren Optimierern zu skalieren… während NVIDIA und Oxford gerade gezeigt haben, dass man Milliarden-Parameter-Modelle mit Evolutionsstrategien trainieren kann, einer Methode, die die meisten Leute als veraltet abgetan haben. Der Trick ist ein neues System namens EGGROLL, das das gesamte Kostenmodell von ES umkehrt. Normalerweise stirbt ES bei großen Modellen, weil man vollständige Perturbationsmatrizen für jedes Mitglied der Population generieren muss. Bei Milliarden-Parameter-Modellen bedeutet das wahnsinnige Speicherbewegungen und lächerliche Rechenleistung. Diese Leute haben es gelöst, indem sie Niedrigrang-Perturbationen mit zwei schlanken Matrizen A und B erzeugen und ABᵀ als Update verwenden. Der Durchschnitt der Population verhält sich dann wie ein vollständiges Update, ohne den Preis eines vollständigen Updates zu zahlen. Das Ergebnis? Sie führen Evolutionsstrategien mit Populationsgrößen in den Hunderttausenden aus, eine Zahl, die frühere Arbeiten nicht erreichen konnten, weil alles unter dem Speicherdruck zusammenbrach. Jetzt ist der Durchsatz praktisch so schnell wie batchweise Inferenz. Das ist für jede gradientenfreie Methode unerhört. Die Mathematik stimmt auch. Die Niedrigrang-Approximation konvergiert mit einer Rate von 1/r zum wahren ES-Gradienten, sodass das Erhöhen des Rangs das vollständige ES-Verhalten ohne die rechnerische Explosion rekreiert. Aber die Experimente sind der Punkt, an dem es verrückt wird. → Sie trainieren rekurrente LMs von Grund auf nur mit Ganzzahl-Datentypen. Keine Gradienten. Kein Backprop. Vollständig stabil, selbst bei hyperskalaren Modellen. → Sie erreichen GRPO-Niveau-Methoden bei LLM-Reasoning-Benchmarks. Das bedeutet, dass ES mit modernen RL-für-Reasoning-Ansätzen bei realen Aufgaben konkurrieren kann. → ES wird plötzlich für massive, diskrete, hybride und nicht-differenzierbare Systeme praktikabel, genau dort, wo Backprop schmerzhaft oder unmöglich ist. ...