Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Behärska olika domäner genom världsmodeller
(DreamerV3)
Tillämpar den senaste Dreamer-modellen på över 150 olika uppgifter, får toppmoderna poäng på många av dem, men framför allt tillämpar den på diamantbrytning i Minecraft, en betydligt svårare utmaning än de flesta RL-uppgifter.
Pressen rapporterade detta som "AI löser Minecraft", vilket är missvisande. Efter 30 miljoner (20 Hz) miljösteg (17 dagar i sträck) bröt den en diamant. Till skillnad från Atari-spelen, som spelas med samma pixlar och kontroller som en människa använder, är detta ett modifierat gränssnitt där inventariet och statistiken presenteras direkt till modellen, samt ett kategoriskt actionutrymme – inget musmusande runt inventarie- och hantverksskärmarna.
Mining var tvungen att modifieras till instant-break istället för det vanliga flersekundershållet av mining-knappen eftersom Dreamer använder stokastiska handlingspolicys, som nästan inte kan hålla in en knapp i hundratals frames i rad. På samma sätt krävde hopprörelsen flera frames av hållning, så den gjordes omedelbart.
Ändå var det första gången en RL-agent hade kommit så här långt utan att ha använt imitationsinlärning från mänskliga spelare, och betydande förbättringar gjordes även på alla andra benchmarks.
Förbättringarna var till stor del ingenjörsarbete, snarare än helt olika arkitekturer. Jag missade avsnittet "saker vi provade som inte fungerade" från V2.
Med förändringarna kan de lönsamt skala modellen från 12 miljoner till 400 miljoner parametrar, och återspelningsgraden från 1 till 64 gånger miljöfrekvensen.
Terminologin i artikeln är nu närmare andra RL-artiklar: "Continue predictor" istället för "discount predictor" och använder Pi för policynätverk. Diagrammen är förbättrade.
Med de gemensamt tränade modellerna finns det en spänning mellan att representationsmodellen vill degenerera för att göra förutsägelsen enklare och att den är användbar för att förutsäga följande tillstånd. Ett av knepen de använder är "free bits", där förlusterna klipps när de är under en viss nivå så att de inte försöker köra hela vägen till noll, vilket gör att motståndarkraften kan göra framsteg utan motstånd.
För de kategoriska fördelningarna använder de 1 % etikettutjämning på de kategoriska fördelningarna för att undvika toppar i KL-förlusten. De kallar detta "unimix" för att blanda en jämn fördelning ovanpå den befintliga fördelningen. Detta är icke-standard (till skillnad från etikettutjämning), men kan hävdas vara bättre terminologi.
De använder ett två-hett kategoriskt värde istället för MSE-regression för kritikern, men till skillnad från de flesta andra implementationer använder de exponentiellt fördelade bins istället för linjärt fördelade så att de kan täcka flera storleksordningar. De definierar funktionerna symlog() / symexp() för att tillåta nätverken att hantera mycket varierande värden i både positiva och negativa intervall. Enligt uppgift fungerar den bättre än den liknande icke-linjära transformationen som används i MuZero och Muesli.
Detta krävde tydligen viss omsorg: "För att beräkna den förväntade förutsägelsen av softmaxfördelningen under bins som sträcker sig över många storleksordningar, spelar summeringsordningen roll och positiva och negativa bins bör summeras separat, från små till stora bins, och sedan läggas till."
Det sista lagret av belönings- och kritikmodellerna nollinitialiseras istället för slumpmässigt för att undvika potentiellt stora falska värden i början av träningen.
Målmodellen för värdefunktionen är nu en EMA istället för en periodisk kopia.
För att få samma mängd utforskning från sin policygradient oavsett värdefunktionernas skala, skalar de de (exponentiellt fördelade, alltså potentiellt mycket stora) avkastningarna till ett begränsat intervall, och beaktar endast intervallet 5 % till 95 % som anses utesluta avvikare.
...
Topp
Rankning
Favoriter
