Kattavin RL-yleiskatsaus, jonka olen koskaan nähnyt. Kevin Murphy Google DeepMindistä, jolla on yli 128 000 viittausta, kirjoitti tämän. Mikä erottaa tämän muista RL-resursseista: → Se yhdistää klassisen RL:n moderniin LLM-aikaan: On kokonainen luku, joka on omistettu "LLM:ille ja RL:lle", kattaen seuraavat: - RLHF, RLAIF ja palkitsemismallinnus - PPO, GRPO, DPO, RLOO, VAHVISTUS++ - Koulutuspäättelymallit - Monikierrosinen RL agenteille - Testiaikainen laskentaskaalaus → Perusasiat ovat kristallinkirkkaat Jokainen merkittävä algoritmi, kuten arvopohjaiset menetelmät, politiikkagradientit ja toimija-kriitikko, selitetään matemaattisella tarkkuudella. → Mallipohjaiset RL- ja maailmanmallit saavat asianmukaisen peiton Kattaa Dreamerin, MuZeron, MCTS:n ja paljon enemmän, ja juuri siihen suuntaan ala on menossa. → Moniagenttinen RL-osio Peliteoria, Nashin tasapaino ja MARL LLM-agenteille. Olen jakanut arXiv-artikkelin vastauksissa!