DApp Store | Web3 Hub for hendelser og spill

Populære emner

Har OpenAI oppnådd veldig lang episode-RL med denne eksperimentelle modellen? Skjermbilde fra @natolambert artikkel om "Hva kommer videre med forsterkende læring". Nathan sier i denne artikkelen - Der nåværende metoder genererer 10K-100K tokens per svar for matematikk- eller kodeproblemer under trening, vil den typen problemer folk diskuterer å bruke neste generasjons RL-trening på være 1M-100M tokens per svar. Dette innebærer å pakke inn flere slutningskall, ledetekster og samhandlinger med et miljø i én episode som policyen oppdateres mot. Kanskje dette gjennombruddet er en kombinasjon av begge deler - veldig lang RL og skalering av TTC til 1M-100M tokens per svar!

8,51K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til