Alla vill arbeta med långsiktiga poänguppgifter men detta är en mycket mer omedelbar + praktisk fråga enligt mig: Hur samlar man optimalt flera belöningar till en enda gradient? Hur beror detta på belöningsbrus? Väldigt häftigt jobb :)
Gokul Swamy
Gokul Swamy20 timmar sedan
Det tog några år av djupt tänkande, men jag är superglad att äntligen dela PROSPER: en vacker, regressionsbaserad algoritm för RL från *matrisbelöningar* som robust hanterar den *inkonsekventa feedbacken* som LLM-domare ger. Låt oss gå tillbaka till Black (ja)! 🧵 (1/n)
Det är uppenbart att du kan öka belöningstrohet genom att lägga mer beräkning på rättning. Det nuvarande paradigmet för detta är att ställa en domare en massa ja/nej-frågor, konvertera till 0/1, och sedan... Medelvärde? Tröskel? Detta kastar bort många bitar som vi lagt ut på beräkning
För att få ett svar måste vi bestämma vad som är "optimalt" — Minmax förväntad domare? Genomsnittlig domare? maxsannolikhet för minst K/N 1? "Belöning" är toppen när det är domän-native (poäng, dollar) men för RL är det i praktiken ofta något vi bara kompenserar för backklättring
Det här är coolt, men väldigt spelteorifyllt, och jag är inte säker på att det är den mest relevanta berättelsen för rubrikvärlden (där intransitivitet egentligen inte är problemet). Men det är en fråga som förtjänar mer utforskning
Så som jag tänker på en "ren" multirubrikuppsättning antar vi att det finns N binära belöningsfunktioner för en uppgift, alla är rimligt tillfredsställbara av en perfekt lösning, men våra belöningsobservationer är något brusiga "maximera sannolikheten för en perfekt lösning" kanske?
1,73K