感恩节周的特别节目:与@lukaszkaiser的史诗对话——“Attention Is All You Need”(Transformers)的合著者,以及在@OpenAI工作的首席研究科学家,致力于GPT-5.1时代的推理模型。 00:00 – 冷开场和介绍 01:29 – “AI减速”与新前沿模型的狂野一周 08:03 – 低垂的果实、基础设施、强化学习训练和更好的数据 11:39 – 什么是推理模型,用简单的语言 17:02 – 思维链和用强化学习训练思维过程 21:39 – Łukasz的道路:从逻辑和法国到谷歌和库兹韦尔 24:20 – Transformer故事的内部,以及“注意力”真正意味着什么 28:42 – 从谷歌大脑到OpenAI:文化、规模和GPU 32:49 – 预训练、GPU和蒸馏的下一步是什么 37:29 – 我们还能理解这些模型吗?电路、稀疏性和黑箱 39:42 – GPT-4 → GPT-5 → GPT-5.1:实际改变了什么 42:40 – 后训练、安全性和教GPT-5.1不同语调 46:16 – GPT-5.1应该思考多久?推理令牌和不规则能力 47:43 – 五岁小孩的点点难题,仍然打破前沿模型 ...