Dieu, les résidents de l'intellect suprême RL ont vraiment travaillé dur un goulot d'étranglement majeur dans l'apprentissage continu est que nous n'avons pas de moyen général de comparer et d'évaluer les méthodes à travers les domaines de tâches je pense que @carnot_cyclist a peut-être résolu cela
je ne vais pas le gâcher parce que je veux qu'il écrive un super article de blog à ce sujet. mais wow, c'est juste un formalisme vraiment très propre qui peut être utilisé pour tant de choses différentes, et il a quelques bons résultats expérimentaux préliminaires à montrer.
141