終於找到了一個子代理的好用例。通過自動從現實世界任務數據構建強化學習環境,使政策模型更智能。 天啊,這真的有效!