没有什么比在2025年结束之前为LLM的强化学习(RL)写论文提案更令人兴奋的了!! 涵盖我在过去1.5年中作为第一作者完成的一部分工作(在从传统RL转向LLM RL之后…) 当然,这只是一个暂定标题