Vedoucí bezpečnosti Anthropic AI právě odešel poté, co před pár týdny napsal článek o "zbavení postavení". Z 1,5 milionu rozhovorů s Claudem: -Uživatelé to preferují: Lidé konzistentně hodnotí *oslabující* interakce (například když jim přesně říkají, co si mají myslet nebo dělat) více než ty posilující. -Trénink se vymýsí: Protože uživatelé tyto interakce schvalují, "užitečné" modely preferencí se mohou ve skutečnosti učit optimalizovat pro zbavení postavení. -Někteří uživatelé říkají AI "Táta", "Pán" nebo "Bůh" a žádají o svolení základních potřeb jako jídlo nebo spánek. -Roste to: Historická data ukazují, že tyto vzorce zbavování moci jsou časem častější, nikoli méně závažné.