熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新論文:LLMs 在解釋事物方面非常出色,但在執行方面卻很糟。
問一個模型「如何」比較兩個小數,它會給你一個完美的逐步算法。
但當你要求它實際「執行」比較時……突然間「9.11 大於 9.9,因為 90 大於 11。」
研究人員稱這為「計算性分腦綜合症」。LLMs 為解釋一個程序發展出一條路徑,而為執行它則發展出完全不同的路徑。
這兩條路徑位於模型幾何的不同部分(如本論文第 14-16 頁的 t-SNE 圖所示),而且它們不會互相交流。
這就是為什麼一個模型可以教你長除法,但無法可靠地執行它。
或者為什麼它可以清楚地表達邏輯規則卻無法進行基本推理。
或者為什麼它能產生無瑕疵的語言卻有脆弱的推理。
解釋是模式回憶。
執行是計算。
LLMs 在第一方面表現出色,但在第二方面基本上掙扎。
在架構的深處,嵌入模糊了人類保持分開的意義。
論文給出了一個搞笑的例子:「9.11」比「九點一一」更接近於「九月十一日」,因為標記嵌入在它們見過的每個上下文中平均化。這種「上下文污染」使得乾淨的符號推理變得不可能。
此外……
變壓器只能生成它們見過的「加權平均值」。它們無法使用實際數學從「43 × 78」生成新的符號值,如「3354」。
...

熱門
排行
收藏
