Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det er intuitivt enkelt å forstå hvorfor selvspill *kan* fungere for LLM-er, hvis vi er i stand til å tilby en verdifunksjon på mellomtrinn (selv om det ikke er så tydelig garantert som i to-spillers nullsumspill).
I sjakk/go/poker har vi en belønning knyttet til hvert neste trekk, men som Noam påpeker, er naturlig språk rotete. Det er vanskelig å definere en verdifunksjon på mellomtrinn som tokens. Som et resultat, i vanlig forsterkningslæring (som RLVR), får LLM-er en belønning på slutten. De ender opp med å lære å "slingre" seg mer for vanskelige problemer. På en måte belønner vi brute forcing med flere tokens for å ende opp på riktig svar som riktig tilnærming.
Men på @DeepCogito gir vi et signal til selve tankeprosessen. Konseptuelt kan du forestille deg dette som post-hoc å tildele en belønning til bedre søkebaner. Dette lærer modellen å utvikle en sterkere intuisjon for "hvordan søke" mens den resonnerer.
I praksis ender modellen opp med betydelig kortere resonneringskjeder for vanskeligere problemer i resonneringsmodus. Noe overraskende ender det også opp med å bli bedre i en ikke-tenkende modus. En måte å tenke på det på er at siden modellen vet hvordan den skal søke bedre, "velger" den den mest sannsynlige banen bedre i ikke-tenkemodus.
Topp
Rangering
Favoritter

