Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Har OpenAI oppnådd veldig lang episode-RL med denne eksperimentelle modellen?
Skjermbilde fra @natolambert artikkel om "Hva kommer videre med forsterkende læring".
Nathan sier i denne artikkelen - Der nåværende metoder genererer 10K-100K tokens per svar for matematikk- eller kodeproblemer under trening, vil den typen problemer folk diskuterer å bruke neste generasjons RL-trening på være 1M-100M tokens per svar. Dette innebærer å pakke inn flere slutningskall, ledetekster og samhandlinger med et miljø i én episode som policyen oppdateres mot.
Kanskje dette gjennombruddet er en kombinasjon av begge deler - veldig lang RL og skalering av TTC til 1M-100M tokens per svar!


19. juli, 15:50
5/N I tillegg til selve resultatet, er jeg begeistret for tilnærmingen vår: Vi når dette kapasitetsnivået ikke via smal, oppgavespesifikk metodikk, men ved å bryte ny innen generell forsterkningslæring og beregningsskalering på testtid.
8,51K
Topp
Rangering
Favoritter