Die Art und Weise, wie man es interpretieren kann, ist, dass nach dem Nachtraining Ihre Gewichte irgendwie gleichmäßig von allen Aufgaben entfernt sind, die es während des Vortrainings gesehen hat (das Modell hat alle Aufgaben gesehen, also haben sie es zu sich hingezogen). Alles, was diese Methode tut, ist, die Gewichte zu stören und zu sehen, welche Störungen das Netzwerk näher an aufgabenspezifische Gewichte bringen. Es ist wie wirklich günstiges Lora. Das steht auch im Zusammenhang mit der Beobachtung, dass das Nachtraining kein Wissen hinzufügt, sondern einfach die Verteilung des Vortrainings meißelt.
Yulu Gan
Yulu Gan13. März, 23:41
Durch einfaches Hinzufügen von Gaußschem Rauschen zu LLMs (ein Schritt – keine Iterationen, keine Lernrate, keine Gradienten) und deren Ensemble kann eine Leistung erzielt werden, die mit der von standardmäßigen GRPO/PPO bei mathematischen Denk-, Programmier-, Schreib- und Chemieaufgaben vergleichbar oder sogar besser ist. Wir nennen diesen Algorithmus RandOpt. Um zu überprüfen, dass dies nicht auf spezifische Modelle beschränkt ist, haben wir ihn an Qwen, Llama, OLMo3 und VLMs getestet. Was steckt dahinter? Wir stellen fest, dass im Gaußschen Suchumfeld um vortrainierte LLMs vielfältige Experten für Aufgaben dicht verteilt sind – ein Regime, das wir Neural Thickets nennen. Papier: Code: Website:
Gewichtsstörungen sind wirklich analog zu zufälligen Rollouts bei hoher Temperatur. Ich denke, das kann iterativ sein (wie grpo) Gewichte mit großem Radius stören -> bessere Performer auswählen -> Radius weiter verringern das *sollte* die Aufgabenakkuratheit erhöhen @yule_gan hast du das ausprobiert?
33