Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die umfassendste Übersicht über RL, die ich je gesehen habe.
Kevin Murphy von Google DeepMind, der über 128.000 Zitationen hat, hat dies geschrieben.
Was macht dies anders als andere RL-Ressourcen:
→ Es verbindet klassisches RL mit der modernen LLM-Ära:
Es gibt ein ganzes Kapitel, das "LLMs und RL" gewidmet ist und Folgendes abdeckt:
- RLHF, RLAIF und Belohnungsmodellierung
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Training von Denkmodellen
- Multi-Turn-RL für Agenten
- Testzeit-Computerskalierung
→ Die Grundlagen sind glasklar
Jeder wichtige Algorithmus, wie wertbasierte Methoden, Policy-Gradienten und Actor-Critic, wird mit mathematischer Strenge erklärt.
→ Modellbasiertes RL und Weltmodelle werden angemessen behandelt
Behandelt Dreamer, MuZero, MCTS und darüber hinaus, was genau der Weg ist, in den sich das Feld entwickelt.
→ Abschnitt über Multi-Agenten-RL
Spieltheorie, Nash-Gleichgewicht und MARL für LLM-Agenten.
Ich habe das arXiv-Papier in den Antworten geteilt!

Top
Ranking
Favoriten
