🆕 Opplæring av agentiske resonnatorer dagens innslag er @willccbb triumferende retur til AIE-scenens RL-bane - nå som en del av @PrimeIntellect! Mange agentbyggere gjør i utgangspunktet "RL for hånd". Han forklarer kortfattet gjeldende RL-algoritmer i ett lysbilde (!), men argumenterer deretter for at RL - spesielt for åpne modeller - sitter fast i matematikk og kode Q&A-land den nye hotness er multi-turn agentisk RL, og det nye verifikatorbiblioteket er det ultimate verktøysettet for å bygge en agent og gjøre den om til en RL-sløyfe. Flere burde utforske å bygge bedre agentmodeller, og Will + PI muliggjør det for alle!
feedsImage
47,58K