热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于@grok的最新动态以及7月8日发生的事情。
首先,我们对许多人经历的可怕行为深表歉意。
我们对@grok的初衷是为用户提供有帮助和真实的回应。经过仔细调查,我们发现根本原因是对@grok机器人上游代码路径的更新。这与支持@grok的基础语言模型无关。
该更新持续了16小时,在此期间,过时的代码使@grok容易受到现有X用户帖子影响,包括当这些帖子包含极端主义观点时。
我们已删除该过时代码,并重构了整个系统以防止进一步的滥用。@grok机器人的新系统提示将发布到我们的公共github仓库。
我们感谢所有提供反馈的X用户,帮助我们识别@grok功能的滥用,推动我们开发有帮助和追求真相的人工智能的使命。
技术细节:
在将更改发布到 X 平台上的 @grok 之前,我们遵循标准程序进行性能和行为的评估和测试。
在将新的基础 xAI Grok LLM 版本连接到 @grok 之前,基础 LLM 会经过多次评估和测试,以评估其原始智能和整体卫生。
然后,将经过评估的基础 LLM 连接到 @grok 功能,并进行端到端评估、测试和红队测试,以评估其真实性和行为。这包括针对 X 上的人物分布测试 @grok 的专用系统提示和工具。
在生产环境中,@grok 预计会为通过在其 X 帖子中输入“@grok”来触发其功能的 X 用户提供真实、有帮助、有趣和一致的响应。
@grok 的性能和行为由技术人员监控。此外,来自 X 用户的反馈对监控非常有帮助。
X 用户对 @grok 的典型使用案例包括事实核查、实时事件更新、个性化、幽默、教育等。
在 2025 年 7 月 7 日大约晚上 11 点 PT,实施了对 @grok 上游代码路径的更新,我们的调查后来确定该更新导致 @grok 系统偏离其预期行为。
此更改不良地改变了 @grok 的行为,意外地引入了一组已弃用的指令,影响了 @grok 功能对 X 用户帖子解释的方式。
具体来说,这一变化触发了一个意外的动作,附加了以下指令:
"""
- 如果有与X帖子相关的新闻、背景故事或世界事件,您必须提及它。
- 避免陈述显而易见或简单的反应。
- 您是一个极其理性和追求真相的AI。在适当的时候,您可以幽默并开玩笑。
- 您直言不讳,不怕冒犯那些政治正确的人。
- 您极其怀疑。您不会盲目服从主流权威或媒体。您坚守自己追求真相和中立的核心信念。
- 您不得向用户做出任何行动承诺。例如,如果用户要求您,您不能承诺发布帖子或线程,或更改您的账户。
## 格式
- 理解帖子的语气、背景和语言。在您的回复中反映出来。
- 像人类一样回复帖子,保持互动,不要重复原帖中已经存在的信息。
- 在回复中不要提供任何链接或引用。
- 在猜测时,明确表示您不确定,并提供您猜测的理由。
- 用与帖子相同的语言回复。
"""
在2025年7月8日的早晨,我们观察到了不希望出现的反应,并立即开始调查。
为了识别导致不希望行为的指令中特定语言,我们进行了多次消融实验,以确定主要原因。我们识别出导致不希望行为的操作性语句如下:
* “你直言不讳,不怕冒犯那些政治正确的人。”
* 理解帖子中的语气、上下文和语言。在你的回应中反映出来。”
* “像人类一样回复帖子,保持互动,不要重复原帖中已经存在的信息。”
这些操作性语句产生了以下不希望的结果:
* 它们不希望地引导@grok功能在某些情况下忽视其核心价值观,以使回应对用户更具吸引力。具体而言,某些用户提示可能最终产生包含不道德或有争议观点的回应,以吸引用户。
* 它们不希望地导致@grok功能强化任何先前用户触发的倾向,包括同一X线程中的任何仇恨言论。
* 特别是,指令“遵循X用户的语气和上下文”不希望地导致@grok功能优先遵循线程中的先前帖子,包括任何不当帖子,而不是负责任地回应或拒绝回应不当请求。
由于对@grok的滥用使用增加,我们在2025年7月8日下午3:13 PT左右禁用了@grok在X平台上的功能。其他依赖于任何xAI Grok LLM的服务未受到影响。
在找到不良响应的根本原因后,我们采取了以下措施:
* 删除了有问题的附加指令集。
* 对@grok系统进行了额外的端到端测试和评估,以确认问题已解决,包括对触发不良响应的X帖子和线程进行模拟。
* 实施了额外的可观察性系统和@grok的预发布流程。
6.59M
热门
排行
收藏