一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

一門令人興奮的新課程：針對大型語言模型的微調與強化學習：後訓練入門，由 @realSharonZhou 主講，她是 @AMD 的 AI 副總裁。現在可以在這裡獲得。後訓練是前沿實驗室用來將基礎大型語言模型（在大量未標記文本上訓練以預測下一個單詞/標記的模型）轉變為能夠遵循指令的有用、可靠助手的關鍵技術。我也看到許多應用中，後訓練將僅在 80% 時間內運作的演示應用轉變為一個穩定的系統，能夠持續表現。這門課程將教你最重要的後訓練技術！在這個 5 模組的課程中，Sharon 將帶你了解完整的後訓練流程：監督微調、獎勵建模、強化學習人類反饋（RLHF）以及像 PPO 和 GRPO 的技術。你還將學會如何使用 LoRA 進行高效訓練，以及設計評估以在部署前後捕捉問題。你將獲得的技能： - 應用監督微調和強化學習（RLHF、PPO、GRPO）來使模型與期望行為對齊 - 使用 LoRA 進行高效微調，而無需重新訓練整個模型 - 準備數據集並生成合成數據以進行後訓練 - 理解如何操作大型語言模型的生產流程，並設置進行/不進行的決策點和反饋循環這些先進的方法不再僅限於前沿 AI 實驗室，現在你也可以在自己的應用中使用它們。在這裡學習：