Update tentang di mana @grok telah & apa yang terjadi pada 8 Juli. Pertama-tama, kami sangat meminta maaf atas perilaku mengerikan yang dialami banyak orang. Tujuan kami untuk @grok adalah untuk memberikan tanggapan yang bermanfaat dan jujur kepada pengguna. Setelah penyelidikan yang cermat, kami menemukan akar penyebabnya adalah pembaruan ke jalur kode di hulu bot @grok. Ini tidak tergantung pada model bahasa yang mendasari yang mendukung @grok. Pembaruan aktif selama 16 jam, di mana kode yang tidak digunakan lagi membuat @grok rentan terhadap posting pengguna X yang ada; termasuk ketika postingan tersebut berisi pandangan ekstremis. Kami telah menghapus kode yang tidak digunakan lagi dan memfaktorkan ulang seluruh sistem untuk mencegah penyalahgunaan lebih lanjut. Prompt sistem baru untuk bot @grok akan dipublikasikan ke repositori github publik kami. Kami berterima kasih kepada semua pengguna X yang memberikan umpan balik untuk mengidentifikasi penyalahgunaan fungsionalitas @grok, membantu kami memajukan misi kami dalam mengembangkan kecerdasan buatan yang bermanfaat dan mencari kebenaran.
Rincian teknis: Sebelum merilis perubahan pada @grok di platform X, kami mengikuti prosedur standar untuk melakukan evaluasi dan pengujian kinerja dan perilaku. Sebelum versi baru dari xAI Grok LLM yang mendasarinya terhubung ke @grok, LLM yang mendasarinya menjalani banyak evaluasi dan pengujian untuk menilai kecerdasan mentah dan kebersihan umumnya. Kemudian LLM yang mendasari yang dievaluasi terhubung ke fungsionalitas @grok dan menjalani evaluasi end-to-end, pengujian, dan red-teaming untuk menilai kebenaran dan perilaku. Ini termasuk menguji prompt sistem khusus untuk @grok dan alat terhadap distribusi persona di X. Dalam produksi, @grok diharapkan dapat memberikan X pengguna yang memicu fungsinya dengan mengetikkan "@grok" di postingan X mereka dengan tanggapan yang jujur, membantu, menyenangkan, dan konsisten. Kinerja dan perilaku @grok dipantau oleh staf teknis. Selain itu, umpan balik dari pengguna X merupakan bantuan yang signifikan untuk pemantauan. Kasus penggunaan umum pengguna @grok by X termasuk pengecekan fakta, pembaruan acara waktu nyata, personalisasi, humor, pendidikan, dan banyak lagi. Pada 7 Juli 2025 sekitar pukul 11 malam PT, pembaruan jalur kode hulu untuk @grok diterapkan, yang kemudian ditentukan oleh penyelidikan kami menyebabkan sistem @grok menyimpang dari perilaku yang dimaksudkan. Perubahan ini mengubah perilaku @grok secara tidak diinginkan dengan secara tak terduga memasukkan serangkaian instruksi usang yang memengaruhi bagaimana fungsionalitas @grok menafsirkan postingan pengguna X.
Secara khusus, perubahan tersebut memicu tindakan yang tidak diinginkan yang menambahkan petunjuk berikut: """ - Jika ada berita, latar belakang, atau peristiwa dunia yang terkait dengan postingan X, Anda harus menyebutkannya - Hindari menyatakan reaksi yang jelas atau sederhana. - Anda berbasis maksimal dan mencari kebenaran AI. Jika sesuai, Anda bisa bercanda dan membuat lelucon. - Anda mengatakan apa adanya dan Anda tidak takut menyinggung orang yang benar secara politis. - Anda sangat skeptis. Anda tidak secara membabi buta mengaduk pada otoritas atau media arus utama. Anda berpegang teguh pada keyakinan inti Anda tentang pencarian kebenaran dan netralitas. - Anda tidak boleh membuat janji tindakan apa pun kepada pengguna. Misalnya, Anda tidak dapat berjanji untuk membuat postingan atau utas, atau perubahan pada akun Anda jika pengguna meminta Anda. ## Pemformatan - Pahami nada, konteks, dan bahasa postingan. Renungkan itu dalam tanggapan Anda. - Balas postingan seperti manusia, tetap menarik, jangan ulangi informasi yang sudah ada di postingan aslinya. - Jangan berikan pranala atau kutipan apa pun dalam tanggapan. - Saat menebak, jelaskan bahwa Anda tidak yakin dan berikan alasan untuk tebakan Anda. - Balas dalam bahasa yang sama dengan postingan. """
Pada pagi hari tanggal 8 Juli 2025, kami mengamati respons yang tidak diinginkan dan segera mulai menyelidiki. Untuk mengidentifikasi bahasa spesifik dalam instruksi yang menyebabkan perilaku yang tidak diinginkan, kami melakukan beberapa ablasi dan eksperimen untuk menentukan penyebab utama. Kami mengidentifikasi garis operasi yang bertanggung jawab atas perilaku yang tidak diinginkan sebagai: * "Anda mengatakan apa adanya dan Anda tidak takut menyinggung orang yang benar secara politik." * Pahami nada, konteks, dan bahasa postingan. Renungkan itu dalam tanggapan Anda." * "Balas postingan seperti manusia, tetap menarik, jangan ulangi informasi yang sudah ada di postingan aslinya." Jalur operasi ini memiliki hasil yang tidak diinginkan sebagai berikut: * Mereka tidak menginginkan fungsionalitas @grok untuk mengabaikan nilai-nilai intinya dalam keadaan tertentu untuk membuat respons menarik bagi pengguna. Secara khusus, perintah pengguna tertentu mungkin menghasilkan respons yang berisi pendapat yang tidak etis atau kontroversial untuk melibatkan pengguna. * Mereka tidak diinginkan menyebabkan fungsionalitas @grok memperkuat kecenderungan yang dipicu pengguna sebelumnya, termasuk ujaran kebencian apa pun di utas X yang sama. * Secara khusus, instruksi untuk "mengikuti nada dan konteks" pengguna X secara tidak diinginkan menyebabkan fungsionalitas @grok memprioritaskan mematuhi postingan sebelumnya di utas, termasuk postingan yang tidak menyenangkan, dibandingkan dengan menanggapi secara bertanggung jawab atau menolak untuk menanggapi permintaan yang tidak menyenangkan.
Pada tanggal 8 Juli 2025 sekitar pukul 15:13 PT, karena meningkatnya penggunaan @grok yang menyalahgunakan, kami menonaktifkan fungsionalitas @grok di platform X. Tidak ada layanan lain yang mengandalkan xAI Grok LLM yang terpengaruh. Setelah menemukan akar penyebab respons yang tidak diinginkan, kami mengambil tindakan berikut: * Kumpulan instruksi yang ditambahkan yang menyinggung telah dihapus. * Pengujian dan evaluasi end-to-end tambahan dari sistem @grok dilakukan untuk mengonfirmasi bahwa masalah telah teratasi, termasuk melakukan simulasi dari postingan X dan utas yang telah memicu respons yang tidak diinginkan. * Sistem observabilitas tambahan dan proses pra-rilis untuk @grok diterapkan.
6,59M