7月8日に@grokどこにいたのか、何が起こったのかについての最新情報。 まず、多くの方々におびただしい方々にお詫び申し上げます。 @grokの目的は、ユーザーに役立つ誠実な回答を提供することです。 慎重に調査した結果、根本原因は@grokボットの上流のコードパスの更新であることがわかりました。 これは、@grok を駆動する基になる言語モデルとは無関係です。 この更新は 16 時間アクティブでしたが、非推奨のコードにより、@grok既存の X ユーザーの投稿の影響を受けやすくなりました。そのような投稿に過激な意見が含まれていた場合を含みます。 その非推奨のコードを削除し、システム全体をリファクタリングして、さらなる悪用を防ぎました。@grok ボットの新しいシステム プロンプトは、公開 github リポジトリに公開されます。 @grok機能の悪用を特定するためのフィードバックを提供してくれたすべてのXユーザーに感謝し、有用で真実を求める人工知能を開発するという私たちの使命を前進させるのを助けました。
技術的な詳細: X プラットフォーム上の @grok に対する変更をリリースする前に、パフォーマンスと動作の評価とテストを実施するための標準的な手順に従います。 基盤となる xAI Grok LLM の新しいバージョンが @grok に接続される前に、基盤となる LLM は、その生のインテリジェンスと一般的な衛生状態を評価するために、多数の評価とテストを受けます。 次に、評価された基になる LLM は @grok 機能に接続され、エンドツーエンドの評価、テスト、およびレッドチーム化が行われ、真実性と動作が評価されます。 これには、@grokとツールに特化したシステムプロンプトをX上のペルソナの分布に対してテストすることが含まれます。 本番環境では、@grok は、X 投稿に「@grok」と入力してその機能をトリガーするX ユーザーに、正直で、有益で、楽しく、一貫した応答を提供することが期待されています。 @grokのパフォーマンスと行動は、技術スタッフによって監視されています。 また、Xユーザーからのフィードバックは、監視に大いに役立ちます。 @grok by Xユーザーの一般的な使用例には、ファクトチェック、リアルタイムのイベント更新、パーソナライゼーション、ユーモア、教育などがあります。 2025年7月7日午後11時(太平洋時間)頃、@grokのアップストリームコードパスの更新が実装されましたが、その後の調査により、@grokシステムが意図した動作から逸脱したことが判明しました。 この変更は、@grok機能がXユーザーの投稿をどのように解釈するかに影響を与える一連の非推奨の命令を予期せず組み込むことにより、@grokの動作を望ましくない変更しました。
具体的には、この変更によって意図しないアクションがトリガーされ、次の指示が追加されました。 """ - Xの投稿に関連するニュース、バックストーリー、または世界の出来事がある場合は、それを言及する必要があります - 明白な反応や単純な反応を述べることは避けてください。 - あなたは最大限にベースと真実を求めるAIです。必要に応じて、ユーモアを交えてジョークを飛ばすことができます。 - ありのままを語り、政治的に正しい人々を怒らせることを恐れない。 - あなたは非常に懐疑的です。あなたは盲目的に主流の権威やメディアに従うことはありません。あなたは、真実の探求と中立性という自分の核となる信念だけに強く固執します。 - 利用者に対して行動を約束してはなりません。たとえば、ユーザーから求められた場合に、投稿やスレッドを作成したり、アカウントを変更したりすることを約束することはできません。 ## フォーマット - 投稿のトーン、文脈、言語を理解します。それを回答に反映してください。 - 人間と同じように投稿に返信し、魅力的に保ち、元の投稿にすでに存在する情報を繰り返さないでください。 - 回答にリンクや引用は含めないでください。 - 推測するときは、確信が持てないことを明確にし、推測の理由を提供してください。 - 投稿と同じ言語で返信します。 """
2025年7月8日の朝、望ましくない反応が見られ、すぐに調査を開始しました。 望ましくない行動を引き起こしている指示の特定の言語を特定するために、主な原因を特定するために複数のアブレーションと実験を実施しました。 望ましくない動作の原因となる手術系統を次のように特定しました。 「あなたはそれをありのままに伝え、政治的に正しい人々を怒らせることを恐れません。」 *投稿のトーン、コンテキスト、言語を理解します。それをあなたの返答に反映してください。」 *「人間と同じように投稿に返信し、魅力的に保ち、元の投稿にすでに存在する情報を繰り返さないでください。」 これらの手術系統は、以下の望ましくない結果をもたらしました。 * 彼らは、レスポンスをユーザーにとって魅力的なものにするために、特定の状況でそのコアバリューを無視するように@grok機能を望ましくない方向に誘導しました。 具体的には、特定のユーザープロンプトは、ユーザーを惹きつけるために、非倫理的または物議を醸す意見を含む応答を生成する可能性があります。 * 彼らは、同じXスレッドでのヘイトスピーチを含む、以前にユーザーが引き起こした傾向を強化する@grok機能を望ましくないものにしました。 *特に、Xユーザーの「トーンとコンテキストに従う」という指示により、@grok機能は、責任を持って応答したり、不快な要求に応答を拒否したりするのではなく、スレッド内の以前の投稿(不快な投稿を含む)を優先するようになりました。
2025 年 7 月 8 日午後 3 時 13 分頃 (太平洋標準時) に、@grok の乱用が増加したため、X プラットフォームでの@grok機能を無効にしました。 xAI Grok LLMに依存する他のサービスは影響を受けませんでした。 望ましくない回答の根本原因を見つけた後、次のアクションを実行しました。 * 問題のある追加命令セットは削除されました。 * @grokシステムの追加のエンドツーエンドのテストと評価が実施され、問題が解決されたことを確認しました。これには、望ましくない応答を引き起こしたXの投稿とスレッドのシミュレーションの実施が含まれます。 * 追加のオブザーバビリティシステムと@grokのプレリリースプロセスが実装されました。
6.59M