终于找到了子代理的一个好用例。通过从现实世界任务数据自动构建强化学习环境,使政策模型更智能。 天哪,它真的有效!