Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
tout le monde veut travailler sur l'attribution de crédit à long terme, mais c'est une question beaucoup plus immédiate et pratique à mon avis :
comment agréger de manière optimale plusieurs récompenses en un seul gradient ? comment cela dépend-il du bruit des récompenses ?
très beau travail :)

il y a 17 heures
Cela a pris quelques années de réflexion approfondie, mais je suis super excité de enfin partager PROSPER : un bel algorithme basé sur la régression pour RL à partir des *récompenses de grille* qui gère de manière robuste le *retour d'information incohérent* que fournissent les juges LLM. Retour à Black(well) ! 🧵(1/n)

il est évident que vous pouvez augmenter la fidélité des récompenses en dépensant plus de puissance de calcul pour l'évaluation. le paradigme actuel consiste à poser à un juge une série de questions par oui ou par non, à les convertir en 0/1, puis… à faire une moyenne ? un seuil ?
cela jette beaucoup de bits sur lesquels nous avons dépensé de la puissance de calcul.
pour obtenir une réponse, nous devons décider ce qu'est "optimal" — minmax attendu juge ? juge moyen ? probabilité maximale d'au moins K/N 1's ?
"récompense" est géniale quand elle est native au domaine (points, dollars) mais pour l'apprentissage par renforcement en pratique, c'est souvent quelque chose que nous inventons juste pour l'escalade de colline.
c'est cool, mais très chargé en théorie des jeux, et je ne suis pas sûr que ce soit l'histoire la plus pertinente pour le cadre de la rubrique (où l'intransitivité n'est pas vraiment le problème). mais c'est une question qui mérite plus d'exploration.

la façon dont je pense à une configuration multi-rubrique "propre" est que nous supposons qu'il y a N fonctions de récompense binaires pour une tâche, toutes plausiblement satisfaisables par une solution parfaite, mais nos observations de récompense sont légèrement bruyantes
"maximiser la probabilité d'une solution parfaite" peut-être ?
1,71K
Meilleurs
Classement
Favoris
