DApp Store | Hub Web3 pour les événements et les jeux

tout le monde veut travailler sur l'attribution de crédit à long terme, mais c'est une question beaucoup plus immédiate et pratique à mon avis : comment agréger de manière optimale plusieurs récompenses en un seul gradient ? comment cela dépend-il du bruit des récompenses ? très beau travail :)

il est évident que vous pouvez augmenter la fidélité des récompenses en dépensant plus de puissance de calcul pour l'évaluation. le paradigme actuel consiste à poser à un juge une série de questions par oui ou par non, à les convertir en 0/1, puis… à faire une moyenne ? un seuil ? cela jette beaucoup de bits sur lesquels nous avons dépensé de la puissance de calcul.

pour obtenir une réponse, nous devons décider ce qu'est "optimal" — minmax attendu juge ? juge moyen ? probabilité maximale d'au moins K/N 1's ? "récompense" est géniale quand elle est native au domaine (points, dollars) mais pour l'apprentissage par renforcement en pratique, c'est souvent quelque chose que nous inventons juste pour l'escalade de colline.

c'est cool, mais très chargé en théorie des jeux, et je ne suis pas sûr que ce soit l'histoire la plus pertinente pour le cadre de la rubrique (où l'intransitivité n'est pas vraiment le problème). mais c'est une question qui mérite plus d'exploration.

la façon dont je pense à une configuration multi-rubrique "propre" est que nous supposons qu'il y a N fonctions de récompense binaires pour une tâche, toutes plausiblement satisfaisables par une solution parfaite, mais nos observations de récompense sont légèrement bruyantes "maximiser la probabilité d'une solution parfaite" peut-être ?