新論文:LLMs 在解釋事物方面非常出色,但在執行方面卻很糟。 問一個模型「如何」比較兩個小數,它會給你一個完美的逐步算法。 但當你要求它實際「執行」比較時……突然間「9.11 大於 9.9,因為 90 大於 11。」 研究人員稱這為「計算性分腦綜合症」。LLMs 為解釋一個程序發展出一條路徑,而為執行它則發展出完全不同的路徑。 這兩條路徑位於模型幾何的不同部分(如本論文第 14-16 頁的 t-SNE 圖所示),而且它們不會互相交流。 這就是為什麼一個模型可以教你長除法,但無法可靠地執行它。 或者為什麼它可以清楚地表達邏輯規則卻無法進行基本推理。 或者為什麼它能產生無瑕疵的語言卻有脆弱的推理。 解釋是模式回憶。 執行是計算。 LLMs 在第一方面表現出色,但在第二方面基本上掙扎。 在架構的深處,嵌入模糊了人類保持分開的意義。 論文給出了一個搞笑的例子:「9.11」比「九點一一」更接近於「九月十一日」,因為標記嵌入在它們見過的每個上下文中平均化。這種「上下文污染」使得乾淨的符號推理變得不可能。 此外…… 變壓器只能生成它們見過的「加權平均值」。它們無法使用實際數學從「43 × 78」生成新的符號值,如「3354」。 ...