> 微調一個小型 LLM > 建立一個推理 LLM > 在遊戲環境中對 LLM 進行強化學習 > 建立合成數據 > 創建一個編碼代理 > 建立一個深度研究代理 > 為代理框架做出貢獻 這些都是實踐項目,價值相當於 10 堂線上課程。只需編碼一些東西。