与Anthropic和Thinking Machines合作的新研究论文 AI公司使用模型规范来定义训练期间期望的行为。模型规范是否清楚地表达了我们希望模型做什么?不同的前沿模型是否具有不同的个性? 我们生成了数千个场景来找出答案。🧵