一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

一个流行的LLM面试问题： “解释从头开始训练LLM的四个阶段。” （下面是逐步解释）

从零开始构建 LLM 主要有 4 个阶段： - 预训练 - 指令微调 - 偏好微调 - 推理微调让我们了解每个阶段！ 0️⃣ 随机初始化的 LLM 此时，模型一无所知。你问它“什么是 LLM？”它会给出像“试试彼得手和你好 448Sn”这样的无意义回答。它还没有看到任何数据，只拥有随机权重。 1️⃣ 预训练这个阶段通过在大量语料库上训练 LLM 来教授语言的基础知识，以预测下一个标记。这样，它吸收了语法、世界事实等。但它在对话方面表现不佳，因为当被提示时，它只是继续文本。 2️⃣ 指令微调为了使其具备对话能力，我们通过训练指令-响应对进行指令微调。这帮助它学习如何遵循提示和格式化回复。现在它可以： - 回答问题 - 总结内容 - 编写代码等。此时，我们可能已经： - 利用整个原始互联网档案和知识。 - 为人工标注的指令响应数据分配了预算。那么我们可以做些什么来进一步改善模型呢？我们进入了强化学习（RL）的领域。 3️⃣ 偏好微调（PFT）你一定见过 ChatGPT 上的一个屏幕，它会问：你更喜欢哪个响应？这不仅仅是为了反馈，而是宝贵的人类偏好数据。 OpenAI 使用这些数据通过偏好微调来微调他们的模型。在 PFT 中：用户在 2 个响应之间选择，以生成人类偏好数据。然后训练一个奖励模型来预测人类偏好，并使用 RL 更新 LLM。上述过程称为 RLHF（带有人类反馈的强化学习），用于更新模型权重的算法称为 PPO。它教会 LLM 与人类对齐，即使没有“正确”的答案。但我们可以进一步改善 LLM。 4️⃣ 推理微调在推理任务（数学、逻辑等）中，通常只有一个正确的响应和一系列定义的步骤来获得答案。因此，我们不需要人类偏好，可以使用正确性作为信号。步骤： - 模型生成对提示的回答。 - 将答案与已知的正确答案进行比较。 - 根据正确性分配奖励。这称为带可验证奖励的强化学习。 DeepSeek 的 GRPO 是一种流行的技术。以上就是从零开始训练 LLM 的 4 个阶段。 - 从随机初始化的模型开始。 - 在大规模语料库上进行预训练。 - 使用指令微调使其遵循命令。 - 使用偏好和推理微调来提升响应质量。 👉 交给你：你将如何进一步改善你的 LLM？

11.97K