DApp Store | Piattaforma Web3 per eventi e giochi

tutti vogliono lavorare sull'assegnazione del credito a lungo termine, ma questa è una domanda molto più immediata e pratica secondo me: come si aggregano in modo ottimale più ricompense in un singolo gradiente? In che modo questo dipende dal rumore delle ricompense? lavoro molto interessante :)

è evidente che puoi aumentare la fedeltà della ricompensa spendendo più risorse di calcolo nella valutazione. il paradigma attuale per questo è porre a un giudice una serie di domande sì/no, convertendo in 0/1, e poi... facendo una media? applicando una soglia? questo scarta molti bit su cui abbiamo speso risorse di calcolo.

per ottenere una risposta, dobbiamo decidere cosa sia "ottimale" — minmax expected judge? average judge? massima probabilità di almeno K/N 1’s? "reward" è fantastico quando è nativo del dominio (punti, dollari) ma per RL in pratica è spesso qualcosa che inventiamo per hillclimbing

questo è interessante, ma è molto carico di teoria dei giochi, e non sono sicuro che sia la storia più rilevante per il contesto del rubric (dove l'intransitività non è davvero la preoccupazione). ma è una domanda che merita ulteriori esplorazioni.

il modo in cui penso a un setup "pulito" multi-rubrica è che assumiamo che ci siano N funzioni di ricompensa binarie per un compito, tutte plausibilmente soddisfacibili da una soluzione perfetta, ma le nostre osservazioni di ricompensa sono leggermente rumorose "massimizzare la probabilità di una soluzione perfetta" forse?