Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL er en kraftig mekanisme for å trene selskapsspesifikke modeller basert på deres unike arbeid og data. Dette er det vi gjør hos Applied Compute. En viktig utfordring er hvordan vi kan gjøre RL effektiv, fordi vi trenger at kjøringene er raske (levert på dager), billige (skalerbar enhetsøkonomi) og forutsigbare (ikke bare raske, men pålitelig raske). Her er noen punkter:
• Synkron RL er sløsing med tid og datakraft.
• Asynkron RL er mer effektivt, men introduserer stagnasjon, noe som fører til læringsustabilitet.
• Modellering og simuleringer kan analytisk hjelpe til med å finne ut hvilken konfigurasjon som fører til optimal effektivitet. Dette gjør at vi raskt kan prototype treningskonfigurasjoner, uten å bruke dyre beregningssykluser på prøvekjøringer.
To av våre medgründere, @rhythmrg og @lindensli, diskuterte nylig noe av denne forskningen på @aiDotEngineer, med fokus på følgende delproblem: hva er den høyest gjennomstrømte måten å gjøre RL på gitt maksimal stagnasjon og beregningsbudsjett?
Topp
Rangering
Favoritter

