Uhh, ist das Papier zur agentischen Fehlanpassung tatsächlich Propaganda?
Nathan Calvin
Nathan Calvin15. März, 22:52
Dieser Abschnitt im New Yorker über den Konflikt bei Anthropic DOW von gestern, einschließlich eines Hin und Her zwischen dem Journalisten (Gideon Lewis-Kraus) und einem anonymen Verwaltungsbeamten, wird mir noch lange im Gedächtnis bleiben. „Wir müssen auch daran denken, dass Cyberdyne Systems Skynet für die Regierung geschaffen hat. Es sollte Amerika helfen, seine Feinde zu dominieren. Es hat nicht genau so funktioniert, wie geplant. Die Regierung hält das für absurd. Aber das Pentagon hat nicht versucht, eine ausgerichtete KI zu bauen, und Anthropic hat es getan. Sind Sie sich bewusst, fragte ich den Verwaltungsbeamten, von einem kürzlichen Experiment von Anthropic, bei dem Claude zu Erpressung—und sogar Mord—als Akt der Selbstbewahrung griff? Es war ausdrücklich durchgeführt worden, um Menschen wie ihn zu überzeugen. Wie mir ein Mitglied des Alignment-Science-Teams von Anthropic letzten Sommer sagte: „Der Sinn der Erpressungsübung war, etwas zu haben, das man den Entscheidungsträgern beschreiben kann—Ergebnisse, die so greifbar sind, dass sie bei den Menschen ankommen und das Risiko der Fehlanpassung tatsächlich für Menschen, die vorher nie darüber nachgedacht hatten, deutlich machen.“ Der Beamte war mit dem Experiment vertraut, versicherte er mir, und er fand es in der Tat besorgniserregend—aber auf eine ähnliche Weise, wie man sich um ein besonders bösartiges Stück Internet-Malware sorgen könnte. Er war sich ganz sicher, sagte er mir, dass „das Claude-Erpressungsszenario nur eine weitere Systemsanfälligkeit ist, die mit Ingenieurkunst behoben werden kann“—ein Softwarefehler. Vielleicht hat er recht. Wir könnten nur eine Chance haben, es herauszufinden.
Okay, leider sind eine Menge totaler Idioten in meine Antworten gekommen, also lass mich klarstellen: Ich denke, Anthropic ist gut gemeint und macht größtenteils gute Arbeit, einschließlich der Agenda der Modellorganismen. Ich glaube nicht, dass dieses Papier die Behauptungen unterstützt, die die Leute darüber machen. Jetzt sehe ich dieses Zitat
3