熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
一門令人興奮的新課程:針對大型語言模型的微調與強化學習:後訓練入門,由 @realSharonZhou 主講,她是 @AMD 的 AI 副總裁。現在可以在這裡獲得。
後訓練是前沿實驗室用來將基礎大型語言模型(在大量未標記文本上訓練以預測下一個單詞/標記的模型)轉變為能夠遵循指令的有用、可靠助手的關鍵技術。我也看到許多應用中,後訓練將僅在 80% 時間內運作的演示應用轉變為一個穩定的系統,能夠持續表現。這門課程將教你最重要的後訓練技術!
在這個 5 模組的課程中,Sharon 將帶你了解完整的後訓練流程:監督微調、獎勵建模、強化學習人類反饋(RLHF)以及像 PPO 和 GRPO 的技術。你還將學會如何使用 LoRA 進行高效訓練,以及設計評估以在部署前後捕捉問題。
你將獲得的技能:
- 應用監督微調和強化學習(RLHF、PPO、GRPO)來使模型與期望行為對齊
- 使用 LoRA 進行高效微調,而無需重新訓練整個模型
- 準備數據集並生成合成數據以進行後訓練
- 理解如何操作大型語言模型的生產流程,並設置進行/不進行的決策點和反饋循環
這些先進的方法不再僅限於前沿 AI 實驗室,現在你也可以在自己的應用中使用它們。
在這裡學習:
熱門
排行
收藏

