DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

📈 ahora en tendencia en alphaXiv "∆Belief-RL: Asignación de Crédito Intrínseco para Interacciones de Largo Horizonte" El RL interactivo de largo horizonte es brutal porque las recompensas son escasas y no está claro qué preguntas o acciones específicas causaron realmente el éxito, por lo que los agentes o no aprenden o aprenden heurísticas frágiles. Para mejorar esto, ∆Belief-RL convierte la "curiosidad" en una señal de aprendizaje adecuada a largo plazo al recompensar a un agente cada vez que una interacción aumenta su creencia en la respuesta verdadera, donde se incrementa la probabilidad del modelo sobre el resultado correcto. Esto proporciona una asignación de crédito densa, paso a paso, por hacer las preguntas correctas, por lo que los agentes aprenden un comportamiento efectivo de búsqueda de información más rápido y generalizan a horizontes mucho más largos + tareas reales como servicio al cliente y personalización con muchas menos interacciones desperdiciadas.

Parte superior

Clasificación

Favoritos