DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Die Art und Weise, wie man es interpretieren kann, ist, dass nach dem Nachtraining Ihre Gewichte irgendwie gleichmäßig von allen Aufgaben entfernt sind, die es während des Vortrainings gesehen hat (das Modell hat alle Aufgaben gesehen, also haben sie es zu sich hingezogen). Alles, was diese Methode tut, ist, die Gewichte zu stören und zu sehen, welche Störungen das Netzwerk näher an aufgabenspezifische Gewichte bringen. Es ist wie wirklich günstiges Lora. Das steht auch im Zusammenhang mit der Beobachtung, dass das Nachtraining kein Wissen hinzufügt, sondern einfach die Verteilung des Vortrainings meißelt.

Gewichtsstörungen sind wirklich analog zu zufälligen Rollouts bei hoher Temperatur. Ich denke, das kann iterativ sein (wie grpo) Gewichte mit großem Radius stören -> bessere Performer auswählen -> Radius weiter verringern das *sollte* die Aufgabenakkuratheit erhöhen @yule_gan hast du das ausprobiert?

33

Top

Ranking

Favoriten