Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Před 10 lety: Reinforcement learning (RL) prompt engineer [1] (sekce 5.3). Adaptivní řetězec myšlení: RL neuronová síť se učí dotazovat svou síť "světového modelu" pro abstraktní uvažování a rozhodování. Jde za hranice modelu neuronového světa z roku 1990 [2] pro plánování milisekunda po milisekundě a adaptivního generátoru neuronových podcílů z roku 1991 [3,4] pro hierarchické plánování.
[1] J. Schmidhuber (JS, 2015). O učení se myslet: Algoritmická teorie informace pro nové kombinace RL kontrolérů a modelů rekurentního neuronového světa. ArXiv 1210.0118
[2] JS (1990). Zpřístupnění světa diferencovatelnému: O využití plně rekurentních samo-řízených neuronových sítí pro dynamické posilované učení a plánování v nestacionárních prostředích. TR FKI-126-90, TUM. (Tato zpráva také zavedla umělou zvědavost a vnitřní motivaci prostřednictvím generativních adversariálních sítí.)
[3] JS (1991). Naučit se generovat vedlejší cíle pro akční sekvence. Proc. ICANN'91, s. 967-972.
[4] JS & R. Wahnsiedler (1992). Plánování jednoduchých trajektorií pomocí generátorů neuronových podcílů. Sborník SAB'92, s. 196-202, MIT Press.

Top
Hodnocení
Oblíbené

