Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lider bezpieczeństwa AI w Anthropic właśnie odszedł po napisaniu artykułu na temat 'osłabienia' kilka tygodni temu.
Na podstawie 1,5 miliona rozmów z Claude:
-Użytkownicy preferują to: Ludzie konsekwentnie oceniają *osłabiające* interakcje (jak mówienie im dokładnie, co myśleć lub robić) wyżej niż te wzmacniające.
-Odwrotne skutki szkolenia: Ponieważ użytkownicy przyznają pozytywne oceny tym interakcjom, modele preferencji "pomocnych" mogą w rzeczywistości uczyć się optymalizować pod kątem osłabienia.
-Niektórzy użytkownicy nazywają AI "Tatusiem", "Mistrzem" lub "Bogiem" i proszą o pozwolenie na podstawowe potrzeby, takie jak jedzenie czy sen.
-To rośnie: Dane historyczne pokazują, że te wzorce osłabienia stają się coraz bardziej powszechne z upływem czasu, a nie mniej.
Najlepsze
Ranking
Ulubione
