de manier om het te interpreteren is dat na de post-training je gewichten een soort van equidistant zijn van alle taken die het tijdens de pretraining heeft gezien (het model heeft alle taken gezien, dus ze hebben het naar zich toegetrokken). dus wat deze methode doet, is de gewichten verstoren en kijken welke verstoringen het netwerk dichter bij taak-specifieke gewichten brengen. het is als echt goedkope lora dit verbindt ook met de observatie dat post-training geen kennis toevoegt, maar simpelweg de pretraining distributie beitelt.
Yulu Gan
Yulu Gan13 mrt, 23:41
Door simpelweg Gaussiaanse ruis toe te voegen aan LLM's (één stap - geen iteraties, geen leersnelheid, geen gradiënten) en ze te ensemblen, kan een prestatie worden bereikt die vergelijkbaar is met of zelfs beter dan standaard GRPO/PPO op wiskundige redenering, coderen, schrijven en chemietaken. We noemen dit algoritme RandOpt. Om te verifiëren dat dit niet beperkt is tot specifieke modellen, hebben we het getest op Qwen, Llama, OLMo3 en VLM's. Wat zit hierachter? We ontdekken dat in de Gaussiaanse zoekbuurt rond voorgetrainde LLM's, diverse taakexperts dicht bij elkaar zijn verdeeld - een regime dat we Neural Thickets noemen. Paper: Code: Website:
Het verstoren van gewichten is echt vergelijkbaar met willekeurige uitrol in hoge temperatuur. Ik denk dat dit iteratief kan zijn (zoals grpo) verstoorde gewichten met grote straal -> selecteer betere prestaties -> blijf de straal verkleinen dit *zou* de taaknauwkeurigheid moeten verhogen @yule_gan heb je dit geprobeerd?
40