一个令人兴奋的新课程:针对 LLM 的微调和强化学习:后训练简介,由 @realSharonZhou 教授,@AMD 的 AI 副总裁。现在可以在这里获取。 后训练是前沿实验室用来将基础 LLM——一个在大量未标记文本上训练以预测下一个单词/标记的模型——转变为一个可以遵循指令的有用、可靠助手的关键技术。我还看到许多应用程序,后训练使得一个仅在 80% 的时间内有效的演示应用程序变成一个始终表现可靠的系统。这个课程将教你最重要的后训练技术! 在这个 5 个模块的课程中,Sharon 将带你了解完整的后训练流程:监督微调、奖励建模、RLHF,以及 PPO 和 GRPO 等技术。你还将学习如何使用 LoRA 进行高效训练,以及设计评估以在部署前后发现问题。 你将获得的技能: - 应用监督微调和强化学习(RLHF、PPO、GRPO)来使模型与期望行为对齐 - 使用 LoRA 进行高效微调,而无需重新训练整个模型 - 准备数据集并生成合成数据以进行后训练 - 理解如何操作 LLM 生产管道,包括 go/no-go 决策点和反馈循环 这些高级方法不再仅限于前沿 AI 实验室,你现在可以在自己的应用程序中使用它们。 在这里学习: