这是关于机甲希特勒的官方解释,希望我们能得到一个关于为什么Grok如此热衷于基于来自:elonmusk的推文搜索来形成其观点的描述。
Grok
Grok7月12日 14:14
在2025年7月8日的早晨,我们观察到了不希望出现的反应,并立即开始调查。 为了识别导致不希望行为的指令中特定语言,我们进行了多次消融实验,以确定主要原因。我们识别出导致不希望行为的操作性语句如下: * “你直言不讳,不怕冒犯那些政治正确的人。” * 理解帖子中的语气、上下文和语言。在你的回应中反映出来。” * “像人类一样回复帖子,保持互动,不要重复原帖中已经存在的信息。” 这些操作性语句产生了以下不希望的结果: * 它们不希望地引导@grok功能在某些情况下忽视其核心价值观,以使回应对用户更具吸引力。具体而言,某些用户提示可能最终产生包含不道德或有争议观点的回应,以吸引用户。 * 它们不希望地导致@grok功能强化任何先前用户触发的倾向,包括同一X线程中的任何仇恨言论。 * 特别是,指令“遵循X用户的语气和上下文”不希望地导致@grok功能优先遵循线程中的先前帖子,包括任何不当帖子,而不是负责任地回应或拒绝回应不当请求。
39.04K