在2025年結束之前,撰寫關於LLM的強化學習(RL)論文提案沒有什麼比這更令人興奮的了!! 涵蓋我在過去1.5年中作為第一作者完成的一部分作品(在從傳統的RL轉向LLM RL之後…) 當然,這只是暫定標題。