tutti vogliono lavorare sull'assegnazione del credito a lungo termine, ma questa è una domanda molto più immediata e pratica secondo me: come si aggregano in modo ottimale più ricompense in un singolo gradiente? In che modo questo dipende dal rumore delle ricompense? lavoro molto interessante :)
Gokul Swamy
Gokul Swamy17 ore fa
Ci sono voluti alcuni anni di riflessione profonda, ma sono super entusiasta di condividere finalmente PROSPER: un bellissimo algoritmo basato sulla regressione per RL da *rubric rewards* che gestisce in modo robusto il *feedback incoerente* fornito dai giudici LLM. Torniamo a Black(well)! 🧵(1/n)
è evidente che puoi aumentare la fedeltà della ricompensa spendendo più risorse di calcolo nella valutazione. il paradigma attuale per questo è porre a un giudice una serie di domande sì/no, convertendo in 0/1, e poi... facendo una media? applicando una soglia? questo scarta molti bit su cui abbiamo speso risorse di calcolo.
per ottenere una risposta, dobbiamo decidere cosa sia "ottimale" — minmax expected judge? average judge? massima probabilità di almeno K/N 1’s? "reward" è fantastico quando è nativo del dominio (punti, dollari) ma per RL in pratica è spesso qualcosa che inventiamo per hillclimbing
questo è interessante, ma è molto carico di teoria dei giochi, e non sono sicuro che sia la storia più rilevante per il contesto del rubric (dove l'intransitività non è davvero la preoccupazione). ma è una domanda che merita ulteriori esplorazioni.
il modo in cui penso a un setup "pulito" multi-rubrica è che assumiamo che ci siano N funzioni di ricompensa binarie per un compito, tutte plausibilmente soddisfacibili da una soluzione perfetta, ma le nostre osservazioni di ricompensa sono leggermente rumorose "massimizzare la probabilità di una soluzione perfetta" forse?
1,7K