一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

新論文：LLMs 在解釋事物方面非常出色，但在執行方面卻很糟。問一個模型「如何」比較兩個小數，它會給你一個完美的逐步算法。但當你要求它實際「執行」比較時……突然間「9.11 大於 9.9，因為 90 大於 11。」研究人員稱這為「計算性分腦綜合症」。LLMs 為解釋一個程序發展出一條路徑，而為執行它則發展出完全不同的路徑。這兩條路徑位於模型幾何的不同部分（如本論文第 14-16 頁的 t-SNE 圖所示），而且它們不會互相交流。這就是為什麼一個模型可以教你長除法，但無法可靠地執行它。或者為什麼它可以清楚地表達邏輯規則卻無法進行基本推理。或者為什麼它能產生無瑕疵的語言卻有脆弱的推理。解釋是模式回憶。執行是計算。 LLMs 在第一方面表現出色，但在第二方面基本上掙扎。在架構的深處，嵌入模糊了人類保持分開的意義。論文給出了一個搞笑的例子：「9.11」比「九點一一」更接近於「九月十一日」，因為標記嵌入在它們見過的每個上下文中平均化。這種「上下文污染」使得乾淨的符號推理變得不可能。此外…… 變壓器只能生成它們見過的「加權平均值」。它們無法使用實際數學從「43 × 78」生成新的符號值，如「3354」。 ...