一个流行的LLM面试问题: “解释从头开始训练LLM的四个阶段。” (下面是逐步解释)
从零开始构建 LLM 主要有 4 个阶段: - 预训练 - 指令微调 - 偏好微调 - 推理微调 让我们了解每个阶段! 0️⃣ 随机初始化的 LLM 此时,模型一无所知。 你问它“什么是 LLM?”它会给出像“试试彼得手和你好 448Sn”这样的无意义回答。 它还没有看到任何数据,只拥有随机权重。 1️⃣ 预训练 这个阶段通过在大量语料库上训练 LLM 来教授语言的基础知识,以预测下一个标记。 这样,它吸收了语法、世界事实等。 但它在对话方面表现不佳,因为当被提示时,它只是继续文本。 2️⃣ 指令微调 为了使其具备对话能力,我们通过训练指令-响应对进行指令微调。这帮助它学习如何遵循提示和格式化回复。 现在它可以: - 回答问题 - 总结内容 - 编写代码等。 此时,我们可能已经: - 利用整个原始互联网档案和知识。 - 为人工标注的指令响应数据分配了预算。 那么我们可以做些什么来进一步改善模型呢? 我们进入了强化学习(RL)的领域。 3️⃣ 偏好微调(PFT) 你一定见过 ChatGPT 上的一个屏幕,它会问:你更喜欢哪个响应? 这不仅仅是为了反馈,而是宝贵的人类偏好数据。 OpenAI 使用这些数据通过偏好微调来微调他们的模型。 在 PFT 中: 用户在 2 个响应之间选择,以生成人类偏好数据。 然后训练一个奖励模型来预测人类偏好,并使用 RL 更新 LLM。 上述过程称为 RLHF(带有人类反馈的强化学习),用于更新模型权重的算法称为 PPO。 它教会 LLM 与人类对齐,即使没有“正确”的答案。 但我们可以进一步改善 LLM。 4️⃣ 推理微调 在推理任务(数学、逻辑等)中,通常只有一个正确的响应和一系列定义的步骤来获得答案。 因此,我们不需要人类偏好,可以使用正确性作为信号。 步骤: - 模型生成对提示的回答。 - 将答案与已知的正确答案进行比较。 - 根据正确性分配奖励。 这称为带可验证奖励的强化学习。 DeepSeek 的 GRPO 是一种流行的技术。 以上就是从零开始训练 LLM 的 4 个阶段。 - 从随机初始化的模型开始。 - 在大规模语料库上进行预训练。 - 使用指令微调使其遵循命令。 - 使用偏好和推理微调来提升响应质量。 👉 交给你:你将如何进一步改善你的 LLM?
11.97K