DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Alla vill arbeta med långsiktiga poänguppgifter men detta är en mycket mer omedelbar + praktisk fråga enligt mig: Hur samlar man optimalt flera belöningar till en enda gradient? Hur beror detta på belöningsbrus? Väldigt häftigt jobb :)

Det är uppenbart att du kan öka belöningstrohet genom att lägga mer beräkning på rättning. Det nuvarande paradigmet för detta är att ställa en domare en massa ja/nej-frågor, konvertera till 0/1, och sedan... Medelvärde? Tröskel? Detta kastar bort många bitar som vi lagt ut på beräkning

För att få ett svar måste vi bestämma vad som är "optimalt" — Minmax förväntad domare? Genomsnittlig domare? maxsannolikhet för minst K/N 1? "Belöning" är toppen när det är domän-native (poäng, dollar) men för RL är det i praktiken ofta något vi bara kompenserar för backklättring

Det här är coolt, men väldigt spelteorifyllt, och jag är inte säker på att det är den mest relevanta berättelsen för rubrikvärlden (där intransitivitet egentligen inte är problemet). Men det är en fråga som förtjänar mer utforskning

Så som jag tänker på en "ren" multirubrikuppsättning antar vi att det finns N binära belöningsfunktioner för en uppgift, alla är rimligt tillfredsställbara av en perfekt lösning, men våra belöningsobservationer är något brusiga "maximera sannolikheten för en perfekt lösning" kanske?

1,73K

Topp

Rankning

Favoriter