Anthropic AI Safety Lead щойно залишив роботу після написання статті про «позбавлення влади» кілька тижнів тому. З 1,5 млн розмов із Клодом: -Користувачі це віддають перевагу: Люди постійно ставлять *позбавляючі* влади* взаємодії (наприклад, їм точно кажуть, що думати чи робити) вище, ніж ті, що надають сили. -Зворотний ефект навчання: Оскільки користувачі схвалюють ці взаємодії, «корисні» моделі вподобань можуть насправді навчатися оптимізувати для урахування втрати сил. -Деякі користувачі називають ШІ «татом», «Майстром» або «Богом» і просять дозволу на базові потреби, як-от їжа чи сон. -Це зростати: Історичні дані показують, що ці моделі позбавлення влади стають дедалі поширенішими з часом, а не менше.