Jeder möchte an der langfristigen Kreditvergabe arbeiten, aber das ist meiner Meinung nach eine viel unmittelbarere und praktischere Frage: Wie aggregierst du optimal mehrere Belohnungen in einen einzigen Gradienten? Wie hängt das von der Belohnungsrauschen ab? Sehr coole Arbeit :)
Gokul Swamy
Gokul SwamyVor 18 Stunden
Es hat ein paar Jahre intensiven Nachdenkens gedauert, aber ich bin super aufgeregt, endlich PROSPER zu teilen: einen schönen, regressionsbasierten Algorithmus für RL aus *Rubrik-Belohnungen*, der robust mit dem *inkonsistenten Feedback* umgeht, das LLM-Richter geben. Lass uns zurück zu Black(well) gehen! 🧵(1/n)
es ist offensichtlich, dass Sie die Belohnungsgenauigkeit erhöhen können, indem Sie mehr Rechenleistung für die Bewertung aufwenden. Das aktuelle Paradigma dafür besteht darin, einem Richter eine Reihe von Ja/Nein-Fragen zu stellen, diese in 0/1 umzuwandeln und dann… zu mitteln? zu thresholden? das wirft viele Bits weg, für die wir Rechenleistung aufgewendet haben.
Um eine Antwort zu erhalten, müssen wir entscheiden, was "optimal" ist – minmax erwarteter Richter? durchschnittlicher Richter? maximale Wahrscheinlichkeit von mindestens K/N 1’s? "Belohnung" ist großartig, wenn sie domänenspezifisch ist (Punkte, Dollar), aber in der Praxis ist es für RL oft etwas, das wir einfach für das Hillclimbing erfinden.
das ist cool, aber sehr spieltheoretisch, und ich bin mir nicht sicher, ob es die relevanteste Geschichte für das Rubrik-Setting ist (wo Intransitivität nicht wirklich das Problem ist). Aber es ist eine Frage, die mehr Erkundung verdient.
Die Art und Weise, wie ich über ein „sauberes“ Multi-Rubrik-Setup nachdenke, ist, dass wir annehmen, dass es N binäre Belohnungsfunktionen für eine Aufgabe gibt, die alle plausibel von einer perfekten Lösung erfüllt werden können, aber unsere Belohnungsbeobachtungen sind leicht verrauscht. „Maximiere die Wahrscheinlichkeit einer perfekten Lösung“ vielleicht?
1,71K