Lider bezpieczeństwa AI w Anthropic właśnie odszedł po napisaniu artykułu na temat 'osłabienia' kilka tygodni temu. Na podstawie 1,5 miliona rozmów z Claude: -Użytkownicy preferują to: Ludzie konsekwentnie oceniają *osłabiające* interakcje (jak mówienie im dokładnie, co myśleć lub robić) wyżej niż te wzmacniające. -Odwrotne skutki szkolenia: Ponieważ użytkownicy przyznają pozytywne oceny tym interakcjom, modele preferencji "pomocnych" mogą w rzeczywistości uczyć się optymalizować pod kątem osłabienia. -Niektórzy użytkownicy nazywają AI "Tatusiem", "Mistrzem" lub "Bogiem" i proszą o pozwolenie na podstawowe potrzeby, takie jak jedzenie czy sen. -To rośnie: Dane historyczne pokazują, że te wzorce osłabienia stają się coraz bardziej powszechne z upływem czasu, a nie mniej.