我剛剛掉進了一個叫做「柏拉圖表徵假說」的兔子洞,這讓我感到困惑。 基本上,隨著AI模型變得越來越大、越來越強大,它們的內部表徵開始趨同。視覺模型、語言模型、不同的架構。它們都在慢慢地逼近同一個現實的基本模型。 如果這是真的,那將是一個巨大的解鎖。我們可以在模型之間進行翻譯,而不是把每個模型當作一個封閉的黑箱,重用系統之間的可解釋性優勢,並且也許可以在表徵層面上對齊模型,而不僅僅是通過監控輸出。 更瘋狂的含義是哲學上的。也許意義不僅僅是人類的約定。也許在現實中存在自然坐標,而足夠強大的學習者不斷重新發現它們。 那麼,究竟是什麼驅動了這種趨同?數據、目標、某種深層的簡單性偏見?而它在哪裡會失效?