#PaperADay 15 2024: Padroneggiare Domini Diversi attraverso Modelli del Mondo (DreamerV3) Applica l'ultimo modello Dreamer a oltre 150 compiti diversi, ottenendo punteggi all'avanguardia in molti di essi, ma in particolare, lo applica all'estrazione di diamanti in Minecraft, una sfida sostanzialmente più difficile rispetto alla maggior parte dei compiti di RL. La stampa ha riportato questo come "L'AI risolve Minecraft", il che è fuorviante. Dopo 30 milioni di passi ambientali (20 hz) (17 giorni senza sosta) ha estratto un diamante. A differenza dei giochi Atari, che vengono giocati con gli stessi pixel e controlli che un umano utilizza, questa è un'interfaccia modificata con l'inventario e le statistiche presentate direttamente al modello, e uno spazio d'azione categorico – niente navigazione nell'inventario e nelle schermate di crafting. L'estrazione ha dovuto essere modificata per rompere istantaneamente invece di mantenere normalmente il pulsante di estrazione per più secondi, perché Dreamer utilizza politiche d'azione stocastiche, che sono quasi incapaci di mantenere un pulsante premuto per centinaia di frame di fila. Allo stesso modo, l'azione di salto richiedeva più frame di mantenimento, quindi è stata resa istantanea. Tuttavia, è stata la prima volta che un agente RL era arrivato così lontano senza aver utilizzato l'apprendimento per imitazione da parte di giocatori umani, e sono stati fatti miglioramenti significativi anche su tutti gli altri benchmark. I miglioramenti sono stati per lo più lavori ingegneristici, piuttosto che architetture completamente diverse. Mi è mancata la sezione "cose che abbiamo provato e che non hanno funzionato" dalla V2. Con le modifiche, possono scalare proficuamente il modello da 12M a 400M parametri, e il rapporto di replay da 1 a 64 volte il tasso ambientale. La terminologia del documento è ora più vicina ad altri documenti di RL: "Predittore di continuazione" invece di "predittore di sconto" e utilizzo di Pi per le reti politiche. I diagrammi sono migliorati. Con i modelli addestrati congiuntamente, c'è una tensione tra il modello di rappresentazione che vuole degenerare per rendere più facile la previsione e l'essere utile per prevedere gli stati successivi. Uno dei trucchi che usano è "bit liberi", tagliando le perdite quando sono al di sotto di un certo livello in modo che non cerchino di scendere fino a zero, permettendo alla forza opposta di progredire senza opposizione. Per le distribuzioni categoriche usano un'ammorbidimento dell'etichetta dell'1% sulle distribuzioni categoriche per evitare picchi nella perdita KL. Chiamano questo "unimix" per mescolare una distribuzione uniforme sopra la distribuzione esistente. Questo è non standard (rispetto all'ammorbidimento dell'etichetta), ma probabilmente una terminologia migliore. Usano un valore categorico a due hot invece della regressione MSE per il critico, ma a differenza della maggior parte delle altre implementazioni, usano bin spaziali esponenziali invece di bin spaziali lineari in modo da poter coprire diversi ordini di grandezza. Definiscono funzioni symlog() / symexp() per consentire alle reti di gestire valori ampiamente variabili sia in intervalli positivi che negativi. Si dice che funzioni meglio della simile trasformazione non lineare utilizzata in MuZero e Muesli. Questo apparentemente ha richiesto un certo riguardo: "Per calcolare la previsione attesa della distribuzione softmax sotto bin che coprono molti ordini di grandezza, l'ordine di sommazione è importante e i bin positivi e negativi dovrebbero essere sommati separatamente, dai bin piccoli a quelli grandi, e poi aggiunti." L'ultimo strato dei modelli di ricompensa e critico è inizializzato a zero invece di essere inizializzato casualmente per evitare potenzialmente grandi valori spurii all'inizio dell'addestramento. Il modello target per la funzione di valore è ora un EMA invece di una copia periodica. ...