這是我們《自然》文章的較長版本。 我們的論點很簡單:統計近似並不等同於智慧。 強大的基準分數通常對於 LLM 在新穎性、不確定性或目標變化下的行為幾乎沒有任何意義。 更重要的是,類似的行為可能源於根本不同的過程。在另一篇論文中,我們確定了人類與 LLM 之間的七個認識論斷層。 例如,LLM 沒有對真實的內部表徵。它們經常生成自信的矛盾,尤其是在較長的互動中,因為它們並不追蹤實際上什麼是真實的。 另一個例子。是的,LLM 解決了一些開放的數學問題,但這些情況通常涉及將已知方法應用於明確定義的問題。LLM 無法發明任何真正新且同時真實的東西,因為它們缺乏判斷什麼是真實的認識機制。 這並不意味著 LLM 是無用的。恰恰相反:它們是極其有用的。 但我們應該小心它們是什麼以及它們不是什麼。 生成可信的文本並不等同於理解。 統計預測並不等同於智慧。 因此,儘管來自於通常懷疑者的炒作,AGI 尚未實現。 * 第一條回覆中的論文 與 @Walter4C 和 @GaryMarcus 共同撰寫