Deus, os residentes do prime intellect RL têm trabalhado arduamente um grande gargalo na aprendizagem contínua é que não temos uma maneira geral de comparar e avaliar métodos em diferentes domínios de tarefas acho que @carnot_cyclist pode ter resolvido isso
não vou estragar porque quero que ele escreva um post de blog incrível sobre isso. mas uau, é apenas um formalismo realmente, realmente limpo que pode ser usado para tantas coisas diferentes, e ele tem alguns bons resultados experimentais iniciais para mostrar.
145