一個受歡迎的 LLM 面試問題: 「解釋從零開始訓練 LLM 的四個階段。」 (以下是逐步解釋)
從零開始構建 LLM 主要有 4 個階段: - 預訓練 - 指令微調 - 偏好微調 - 推理微調 讓我們了解每個階段! 0️⃣ 隨機初始化的 LLM 在這個階段,模型什麼都不知道。 你問它「什麼是 LLM?」它會給出像「試試彼得手和你好 448Sn」這樣的胡言亂語。 它還沒有看到任何數據,只擁有隨機的權重。 1️⃣ 預訓練 這個階段通過在大量語料庫上訓練來教 LLM 語言的基本知識,以預測下一個標記。 這樣,它吸收了語法、世界事實等。 但它在對話方面不太好,因為當被提示時,它只是繼續文本。 2️⃣ 指令微調 為了使其具備對話能力,我們通過訓練指令-回應對來進行指令微調。這幫助它學會如何遵循提示和格式化回覆。 現在它可以: - 回答問題 - 總結內容 - 編寫代碼等。 在這個階段,我們可能已經: - 利用整個原始互聯網檔案和知識。 - 用於人類標記的指令回應數據的預算。 那麼我們可以做什麼來進一步改善模型呢? 我們進入強化學習 (RL) 的領域。 3️⃣ 偏好微調 (PFT) 你一定見過 ChatGPT 上的屏幕,它會問:你更喜歡哪個回應? 這不僅僅是為了反饋,而是有價值的人類偏好數據。 OpenAI 使用這些數據來通過偏好微調來微調他們的模型。 在 PFT 中: 用戶在 2 個回應之間選擇,以生成人類偏好數據。 然後訓練一個獎勵模型來預測人類偏好,並使用 RL 更新 LLM。 上述過程稱為 RLHF(帶有人類反饋的強化學習),用於更新模型權重的算法稱為 PPO。 它教 LLM 與人類對齊,即使沒有「正確」答案。 但我們還可以進一步改善 LLM。 4️⃣ 推理微調 在推理任務(數學、邏輯等)中,通常只有一個正確的回應和一系列明確的步驟來獲得答案。 因此,我們不需要人類偏好,可以使用正確性作為信號。 步驟: - 模型生成對提示的回答。 - 將答案與已知的正確答案進行比較。 - 根據正確性,我們分配獎勵。 這稱為帶可驗證獎勵的強化學習。 DeepSeek 的 GRPO 是一種流行的技術。 這就是從零開始訓練 LLM 的 4 個階段。 - 從隨機初始化的模型開始。 - 在大規模語料庫上進行預訓練。 - 使用指令微調使其遵循命令。 - 使用偏好和推理微調來提高回應的準確性。 👉 現在輪到你了:你會如何進一步改善你的 LLM?
11.98K