新しい論文:LLMは説明が得意で、実行が苦手です。 モデルに「どうやって」小数点数を比較するか尋ねれば、完璧なステップバイステップのアルゴリズムが得られます。 実際に比較を「やって」ほしいと頼んでみてください...そして突然「9.11は9.9より大きい。なぜなら90は11より大きいからだ」と。 研究者たちはこれを「計算的分裂脳症候群」と呼んでいます。LLMは、手順を説明するための一つの経路と、それを実行する全く異なる道筋を開発します。 これら2つの経路はモデルのジオメトリの異なる部分に存在しており(本論文の14–16ページのt-SNEプロットに示されています)、互いに通信しません。 だからモデルは長除法を教えても、確実に教えられないのです。 あるいは、論理的なルールを明確に示せるのに基本的な推論に失敗する理由も。 あるいは、なぜ完璧な言葉遣いと脆い推論を生み出すのか。 説明はパターンの想起です。 実行は計算です。 LLMは前者で優れていますが、後者では根本的に苦戦します。 建築の奥深くでは、埋め込みが人間が分けて保管する意味をぼやけさせている。 論文は面白い例を挙げています。「9.11」は「9.11」よりも「9.11」に近いです。トークン埋め込みは見たすべての文脈で平均されるからです。その「文脈的汚染」は、明確な象徴的推論を不可能にします。 その上。。。 トランスは見たものの「加重平均」しか出せません。実際の数学では「43 × 78」から「3354」を新しい記号数値生成することはできません。 ...