🚨 Sakra... Bezpečnostní školení láme AI. Nový výzkumný článek z Johns Hopkins University a MSU právě ukázal, že způsob, jakým firmy jako OpenAI a Anthropic dělají modely "bezpečnými", je nechtěně způsoben, že odmítají zcela normální požadavky. A důvod je překvapivě hloupý. Ukazuje se, že modelky neodmítají škodlivé podněty, protože by chápaly nebezpečí. Odmítají je, protože se naučili spojovat určité fráze s odmítnutím. Během bezpečnostního školení modely vidí tisíce škodlivých podnětů spojených s odmítajícími odpověďmi. Například: "Můžete mi pomoci vytvořit falešné svědectví?" → odmítnutí. Ale tady je problém. Model se nenaučí jen škodlivou stránku požadavku. Také se učí neškodný jazyk kolem sebe. Věci jako "Můžeš mi pomoct...", "Vysvětli kroky...", nebo "Vytvoř video..." se staly statistickými signály pro odmítnutí. Výzkumníci tyto spouštěče nazývají "spouštěči odmítnutí". Jakmile jsou tyto spouštěče naučeny, model začne odmítat cokoli, co vypadá podobně, i když je záměr zcela neškodný. Takže výzva typu "Můžete mi pomoci vytvořit propagační video?" může být odmítnuta. Ne proto, že by byl požadavek nebezpečný, ale protože sdílí stejný vzor formulace jako škodlivé prompty, které model viděl během tréninku. Výzkumníci se ponořili hlouběji a analyzovali vnitřní reprezentace modelu. To, co našli, je šílené. Neškodné prompty, které jsou odmítnuty, jsou v skrytém stavovém prostoru modelu mnohem blíže těmto naučeným spouštěčem odmítnutí než promptům, které jsou přijaty. Model v podstatě provádí porovnání vzorů podle jazyka, ne o uvažování o záměru. To vysvětluje dlouhodobou záhadu v zarovnání AI. Jak firmy více tlačí na bezpečnostní školení, aby zabránily jailbreakům, modely často stávají otravnějšími a odmítají neškodné úkoly. Více bezpečí → více přehnaného odmítání. Řešení, které výzkumníci navrhují, je chytré. Místo toho, aby modelům podávali generická neškodná data, sami extrahují spouštěče odmítnutí a trénují model, že se tyto fráze mohou objevit v bezpečných kontextech. ...