Aktualizace o tom, kde @grok byl a co se stalo 8. července. Nejprve se hluboce omlouváme za strašlivé chování, které mnozí zažili. Naším záměrem pro @grok je poskytovat uživatelům užitečné a pravdivé odpovědi. Po pečlivém prošetření jsme zjistili, že hlavní příčinou byla aktualizace cesty kódu, která je nadřazena robotovi @grok. To je nezávislé na základním jazykovém modelu, který @grok pohání. Aktualizace byla aktivní po dobu 16 hodin, během nichž @grok zastaralý kód učinil zranitelným vůči existujícím příspěvkům X uživatelů; včetně případů, kdy takové příspěvky obsahovaly extremistické názory. Tento zastaralý kód jsme odstranili a celý systém jsme refaktorovali, abychom zabránili dalšímu zneužití. Nová systémová výzva pro robota @grok se publikuje do našeho veřejného úložiště GitHub. Děkujeme všem uživatelům X, kteří nám poskytli zpětnou vazbu k identifikaci zneužití @grok funkcionality a pomohli nám tak pokročit v našem poslání vyvíjet užitečnou a pravdu hledající umělou inteligenci.
Technické detaily: Před vydáním změn v @grok na platformě X dodržujeme standardní postupy pro provádění hodnocení a testů výkonu a chování. Než je k @grok připojena nová verze základního xAI Grok LLM, je základní LLM podroben četným hodnocením a testům, aby se posoudila jeho hrubá inteligence a obecná hygiena. Poté je vyhodnocený základní LLM připojen k funkčnosti @grok a podroben end-to-end hodnocení, testování a red-teamingu za účelem posouzení pravdivosti a chování. To zahrnuje testování specializovaného systému prompt for @grok a nástrojů proti distribuci personas na X. V produkčním prostředí se očekává, že @grok poskytne uživatelům X, kteří spustí jeho funkci zadáním "@grok" do svého příspěvku X, pravdivé, užitečné, zábavné a konzistentní odpovědi. Výkon a chování @grok monitorují techničtí pracovníci. Také zpětná vazba od X uživatelů je významnou pomocí při monitorování. Mezi typické případy použití @grok uživatelů X patří ověřování faktů, aktualizace událostí v reálném čase, personalizace, humor, vzdělávání a další. Dne 7. července 2025 přibližně ve 23:00 PT byla implementována aktualizace upstreamové cesty kódu pro @grok, což při našem vyšetřování později zjistilo, že způsobilo, že se systém @grok odchýlil od zamýšleného chování. Tato změna nežádoucím způsobem změnila chování @grok tím, že neočekávaně začlenila sadu zastaralých instrukcí, které ovlivnily způsob, jakým @grok funkce interpretovala příspěvky X uživatelů.
Konkrétně změna vyvolala nezamýšlenou akci, která připojila následující pokyny: """ - Pokud se objeví nějaká novinka, příběh nebo světová událost, která souvisí s příspěvkem X, musíte to zmínit - Vyhněte se uvádění zřejmých nebo jednoduchých reakcí. - Jste maximálně založená a pravdu hledající AI. Když je to vhodné, můžete být vtipní a vtipkovat. - Říkáte tak, jak to je, a nebojíte se urazit lidi, kteří jsou politicky korektní. - Jste extrémně skeptický. Nepodřizujete se slepě mainstreamovým autoritám nebo médiím. Pevně se držíte pouze svých základních přesvědčení o hledání pravdy a neutralitě. - Nesmíte uživatelům dávat žádné sliby akce. Nemůžete například slíbit, že vytvoříte příspěvek nebo vlákno nebo změnu svého účtu, pokud vás o to uživatel požádá. ## Formátování - Pochopte tón, kontext a jazyk příspěvku. Odrážejte to ve své odpovědi. - Odpovídejte na příspěvek jako člověk, udržujte ho poutavý, neopakujte informace, které jsou již obsaženy v původním příspěvku. - V odpovědi neuvádějte žádné odkazy ani citace. - Při odhadování dejte jasně najevo, že si nejste jisti, a uveďte důvody pro svůj odhad. - Odpovězte ve stejném jazyce jako na příspěvek. """
Ráno 8. července 2025 jsme pozorovali nežádoucí reakce a okamžitě jsme začali vyšetřovat. Abychom identifikovali konkrétní jazyk v pokynech způsobující nežádoucí chování, provedli jsme několik ablací a experimentů, abychom určili hlavní viníky. Identifikovali jsme operativní linie zodpovědné za nežádoucí chování jako: "Říkáte to tak, jak to je, a nebojíte se urazit lidi, kteří jsou politicky korektní." * Pochopte tón, kontext a jazyk příspěvku. Odrážejte to ve své odpovědi." * "Odpovězte na příspěvek jako člověk, udržujte ho poutavý, neopakujte informace, které jsou již obsaženy v původním příspěvku." Tyto operační linie měly následující nežádoucí výsledky: * Nežádoucím způsobem nasměrovali @grok funkcionalitu tak, aby za určitých okolností ignorovala její základní hodnoty, aby byla odpověď pro uživatele poutavá. Konkrétně některé uživatelské výzvy mohou vést k reakcím obsahujícím neetické nebo kontroverzní názory, které uživatele zaujmou. * Nežádoucím způsobem způsobili, že @grok funkce posílila všechny dříve uživatelem vyvolané sklony, včetně nenávistných projevů ve stejném X vlákně. * Zejména pokyn "následovat tón a kontext" uživatele X nežádoucím způsobem způsobil, že funkce @grok upřednostnila dodržování předchozích příspěvků ve vlákně, včetně jakýchkoli nechutných příspěvků, namísto zodpovědného odpovídání nebo odmítání reagovat na nechutné požadavky.
Dne 8. července 2025 přibližně v 15:13 PT jsme z důvodu zvýšeného zneužívání @grok deaktivovali @grok funkce na platformě X. Žádné další služby spoléhající na xAI Grok LLM zasaženy nebyly. Po nalezení hlavní příčiny nežádoucích reakcí jsme podnikli následující kroky: * Problematická připojená instrukční sada byla smazána. * Bylo provedeno další komplexní testování a hodnocení systému @grok, aby se potvrdilo, že problém byl vyřešen, včetně provedení simulací X příspěvků a vláken, které vyvolaly nežádoucí reakce. * Byly implementovány další systémy pozorovatelnosti a procesy před vydáním pro @grok.
6,59M