DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

de manier om het te interpreteren is dat na de post-training je gewichten een soort van equidistant zijn van alle taken die het tijdens de pretraining heeft gezien (het model heeft alle taken gezien, dus ze hebben het naar zich toegetrokken). dus wat deze methode doet, is de gewichten verstoren en kijken welke verstoringen het netwerk dichter bij taak-specifieke gewichten brengen. het is als echt goedkope lora dit verbindt ook met de observatie dat post-training geen kennis toevoegt, maar simpelweg de pretraining distributie beitelt.

Het verstoren van gewichten is echt vergelijkbaar met willekeurige uitrol in hoge temperatuur. Ik denk dat dit iteratief kan zijn (zoals grpo) verstoorde gewichten met grote straal -> selecteer betere prestaties -> blijf de straal verkleinen dit *zou* de taaknauwkeurigheid moeten verhogen @yule_gan heb je dit geprobeerd?

40

Boven

Positie

Favorieten