Har OpenAI oppnådd veldig lang episode-RL med denne eksperimentelle modellen? Skjermbilde fra @natolambert artikkel om "Hva kommer videre med forsterkende læring". Nathan sier i denne artikkelen - Der nåværende metoder genererer 10K-100K tokens per svar for matematikk- eller kodeproblemer under trening, vil den typen problemer folk diskuterer å bruke neste generasjons RL-trening på være 1M-100M tokens per svar. Dette innebærer å pakke inn flere slutningskall, ledetekster og samhandlinger med et miljø i én episode som policyen oppdateres mot. Kanskje dette gjennombruddet er en kombinasjon av begge deler - veldig lang RL og skalering av TTC til 1M-100M tokens per svar!
Alexander Wei
Alexander Wei19. juli, 15:50
5/N I tillegg til selve resultatet, er jeg begeistret for tilnærmingen vår: Vi når dette kapasitetsnivået ikke via smal, oppgavespesifikk metodikk, men ved å bryte ny innen generell forsterkningslæring og beregningsskalering på testtid.
8,51K