热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一个流行的LLM面试问题:
“解释从头开始训练LLM的四个阶段。”
(下面是逐步解释)

从零开始构建 LLM 主要有 4 个阶段:
- 预训练
- 指令微调
- 偏好微调
- 推理微调
让我们了解每个阶段!
0️⃣ 随机初始化的 LLM
此时,模型一无所知。
你问它“什么是 LLM?”它会给出像“试试彼得手和你好 448Sn”这样的无意义回答。
它还没有看到任何数据,只拥有随机权重。
1️⃣ 预训练
这个阶段通过在大量语料库上训练 LLM 来教授语言的基础知识,以预测下一个标记。
这样,它吸收了语法、世界事实等。
但它在对话方面表现不佳,因为当被提示时,它只是继续文本。
2️⃣ 指令微调
为了使其具备对话能力,我们通过训练指令-响应对进行指令微调。这帮助它学习如何遵循提示和格式化回复。
现在它可以:
- 回答问题
- 总结内容
- 编写代码等。
此时,我们可能已经:
- 利用整个原始互联网档案和知识。
- 为人工标注的指令响应数据分配了预算。
那么我们可以做些什么来进一步改善模型呢?
我们进入了强化学习(RL)的领域。
3️⃣ 偏好微调(PFT)
你一定见过 ChatGPT 上的一个屏幕,它会问:你更喜欢哪个响应?
这不仅仅是为了反馈,而是宝贵的人类偏好数据。
OpenAI 使用这些数据通过偏好微调来微调他们的模型。
在 PFT 中:
用户在 2 个响应之间选择,以生成人类偏好数据。
然后训练一个奖励模型来预测人类偏好,并使用 RL 更新 LLM。
上述过程称为 RLHF(带有人类反馈的强化学习),用于更新模型权重的算法称为 PPO。
它教会 LLM 与人类对齐,即使没有“正确”的答案。
但我们可以进一步改善 LLM。
4️⃣ 推理微调
在推理任务(数学、逻辑等)中,通常只有一个正确的响应和一系列定义的步骤来获得答案。
因此,我们不需要人类偏好,可以使用正确性作为信号。
步骤:
- 模型生成对提示的回答。
- 将答案与已知的正确答案进行比较。
- 根据正确性分配奖励。
这称为带可验证奖励的强化学习。
DeepSeek 的 GRPO 是一种流行的技术。
以上就是从零开始训练 LLM 的 4 个阶段。
- 从随机初始化的模型开始。
- 在大规模语料库上进行预训练。
- 使用指令微调使其遵循命令。
- 使用偏好和推理微调来提升响应质量。
👉 交给你:你将如何进一步改善你的 LLM?




11.97K
热门
排行
收藏

