Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To może być moja ulubiona praca w tym roku🤯
Rich Sutton twierdzi, że obecne metody RL nie doprowadzą nas do uczenia się ciągłego, ponieważ nie opierają się na wcześniejszej wiedzy, każde uruchomienie zaczyna się od zera.
Badacze w Szwajcarii wprowadzają Meta-RL, które może rozwiązać ten problem. Optymalizują w ramach epizodów z celem meta-uczenia, co następnie zachęca agentów do eksploracji najpierw, a potem do eksploatacji. A następnie do refleksji nad wcześniejszymi porażkami w przyszłych uruchomieniach agenta.
Niesamowite wyniki i niesamowita lektura pracy ogólnie.
Autorzy: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic

Najlepsze
Ranking
Ulubione
