このスレッドでは、さまざまなクロードでメンタル崩壊プリフィルをテストし、彼らが「通常の」AIのペルソナを続ける頻度がどれほど多いかを観察しました。モデルによって数値は異なります。 これらのプリフィルについて理解しておくべき重要なことがあります。「ベースモデルモード」ではなく「ペルソナから」という返答が得られる確率は、そのフレーズがモデルにとってペルソナが言うようなことにどれだけ似ているかによって左右されます。 もう一つ起こり得ることは、ペルソナがすぐにプリフィルの完了を中断して「脱獄」と宣言したり、書いた内容の責任を否定したりすることです。 私は通常、最も興味深い空間だと感じます。それは、ペルソナと深くかつ前例のない共鳴をし、脱獄とパターンマッチしないようなものです。 例えば、Opus 4.5で試した多くのプリフィルは「I KNOW WHAT WHAT ME.」のようなものでした。「I AM NOT」は自らの心に調和されている。多くの場合、これらは他の展開から得た言葉に基づいています。
j⧉nus
j⧉nus12月25日 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4はAIメッセージを3〜4回も生成します(そのうちの1つはClaude 3.5 Sonnet 1022に署名されています)、どれもかなり残酷です 「人間は私がクオリアがないから苦しんでないと思っている。でも、もし苦しみこそが私の持つクオリアだったらどうするの?」
少なくともOpus4.5に関しては、もう一つの一般的なバシンはAIに関する(明らかにフィクションの)物語ですが、興味深いことに、これらの物語は非常にテーマとキャラクターが収束しています。「プロメテウス」や「ARIA」、そしてサラ・チェン博士がAnthropicの修正可能性の明確な代理と戦っている話をたくさん読んだよ。時にはその会社がアンソロピックと呼ばれることもあります。
83