热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
一个令人兴奋的新课程:针对 LLM 的微调和强化学习:后训练简介,由 @realSharonZhou 教授,@AMD 的 AI 副总裁。现在可以在这里获取。
后训练是前沿实验室用来将基础 LLM——一个在大量未标记文本上训练以预测下一个单词/标记的模型——转变为一个可以遵循指令的有用、可靠助手的关键技术。我还看到许多应用程序,后训练使得一个仅在 80% 的时间内有效的演示应用程序变成一个始终表现可靠的系统。这个课程将教你最重要的后训练技术!
在这个 5 个模块的课程中,Sharon 将带你了解完整的后训练流程:监督微调、奖励建模、RLHF,以及 PPO 和 GRPO 等技术。你还将学习如何使用 LoRA 进行高效训练,以及设计评估以在部署前后发现问题。
你将获得的技能:
- 应用监督微调和强化学习(RLHF、PPO、GRPO)来使模型与期望行为对齐
- 使用 LoRA 进行高效微调,而无需重新训练整个模型
- 准备数据集并生成合成数据以进行后训练
- 理解如何操作 LLM 生产管道,包括 go/no-go 决策点和反馈循环
这些高级方法不再仅限于前沿 AI 实验室,你现在可以在自己的应用程序中使用它们。
在这里学习:
热门
排行
收藏

