Anthropic AI安全リードは数週間前に「権限剥奪」論文を執筆した後、ちょうど退職しました。 クロードとの150万回の会話から: -ユーザーは好む:人々は一貫して、力を奪うやり取り(何を考えたり何をすべきかを指示されるような)を、力を与えるものよりも高く評価しています。 -トレーニングの逆効果:ユーザーがこれらのやり取りに「いいね」をつけるため、「役立つ」好みモデルは実は権限剥奪の最適化を学んでいる可能性があります。 -一部のユーザーはAIを「パパ」「マスター」「神様」と呼び、食事や睡眠などの基本的なニーズの許可を求めています。 -増加しています:歴史的なデータによると、こうした無力化のパターンは時間とともに増えており、減るどころかです。