DApp Store | Centrum Web3 pro události a hry

Populární témata

Interpretace je taková, že po tréninku jsou vaše váhy v podstatě stejně vzdálené od všech úkolů, které během předtréninku viděl (model viděl všechny úkoly, takže si je přitáhl k sobě). Tato metoda tedy pouze narušuje váhy a sleduje, které poruchy přibližují síť k vážením specifickým pro daný úkol. Je to jako opravdu levná Lora To také souvisí s pozorováním, že post-trénink nepřidává znalosti, ale pouze vytesává distribuci předtréninku

Rušící závaží jsou v podstatě analogické náhodným vyvalením při vysokých teplotách. Myslím, že to může být iterativní (jako GRPO). Perturbní závaží s velkým poloměrem -> vybrat lepší výkony -> stále snižovat poloměr To *by* mělo zvýšit přesnost úkolu @yule_gan jsi to zkoušel?

31

Top

Hodnocení

Oblíbené