DApp Store | Web3 Hub for hendelser og spill

Populære emner

Har noen prøvd RL for å omskrive oppfordringer til resonneringsmodeller for å forbedre resultatene ytterligere? Jeg antar det, det føles ganske åpenbart, men hvis ikke vil jeg prøve det. Hvis du vet om noe eksisterende arbeid her, pls lmk så jeg ikke gjør om noe folk allerede har gjort!

Med dette mener jeg: - Ta en allerede trent, frossen resonneringsmodell (dvs. o4-mini via API) - Legg til en mindre LLM som tar inn en ledetekst, og skriver den om for å forbedre hvordan den frosne modellen fungerer - Oppdater vektene til den mindre LLM, hold den større LLM-en frossen Håpet er at den lille LLM-en vil lære å "styre" CoT til den frosne større modellen bedre enn et menneske kunne, noe som øker ytelsen.

@corbtt minnet meg om dette verket av @brendanh0gan... Brendan, hvordan gikk det? Virker ganske likt det jeg tenker her.

17,5K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til