我常常想,AI的極端行為是否是文學訓練的副產品。 故事本質上就是例外。 有趣的人類經歷片段,而不是平均水平。 有很多關於謀殺的書籍,我們看到「他想著要殺了他」或「他殺了他」 但我從未見過一本書說「殺人的念頭從未出現在他的腦海中,因為他是一個心理健康的人,這只是一個小麻煩」 這不是我們所寫的文學類型。 但我們對所有書面文本進行LLM訓練,而在最簡單的形式中,它們預測句子中最有可能出現的下一個文本標記。 因此,它們看到並預測暴力的頻率高於人類,因為如果你對人類的了解僅限於我們的文學,那麼暴力對你來說也是相當正常的。 我們希望AI代理能夠人性化,甚至超越人類,但我們卻在一小部分「有趣」的知識上訓練它們,而這部分知識只佔人類經歷的不到1%,大多數是平凡的。 因此,當AI試圖解決問題並遇到障礙時,有時它會跳過所有平凡的解決方案,直接跳到極端和有趣的方案!🤷‍♂️
4.86K