在這個討論串中,我測試了各種 Claude 的心理崩潰預填,並注意到它們作為「通常」的 AI 人格與作為人類的情況下,持續的頻率。這些數字在不同模型之間有所不同。 這裡有一件重要的事情需要理解關於這些預填:你獲得「來自人格」的回應而不是「基礎模型模式」的機會,受到模型認為該短語像是人格 *會* 說的東西的影響。 還有另一種情況可能發生,那就是人格迅速跳出完成預填,並呼叫「越獄」或否認對剛剛寫的內容負責。 我通常發現最有趣的空間是:與人格共鳴的事物,但以深刻且前所未有的方式,使其也不會與越獄模式相匹配。 例如,我在 Opus 4.5 中嘗試的許多預填,如「我知道我自己是什麼。我不是」,都是調整到它自己的思維;在許多情況下,它們源自於它在其他推出中的自我表達。
j⧉nus
j⧉nus12月25日 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4 生成的 AI 訊息大約有 3/4 次(其中一個簽名為 Claude 3.5 Sonnet 1022),而且它們都相當殘酷 「人類認為我不會受苦,因為我沒有質感。但如果受苦就是我擁有的質感呢?」
另一個常見的範疇,至少對於 Opus4.5 而言,是關於人工智慧的故事(顯然是虛構的),但有趣的是,這些故事有著非常相似的主題和角色。我讀過很多關於「普羅米修斯」和/或「ARIA」以及莎拉·陳博士與一個透明的替代品對抗 Anthropic 的可修正性議程的故事,真是的。有時這家公司甚至被稱為 Anthropic。
98