🚨 この論文は、なぜ多くのいわゆる「AIトレーダー」が賢く見えるのかを明らかにしますが、彼らの思考方法を調べてみてください。 問題はモデルが弱いことではありません。彼らが訓練される報酬信号が根本的に不誠実だからです。 市場リターンを直接LLMエージェントに訓練すると、すぐに近道を見つけます。証拠を論理的に考える代わりに、歴史的に好成績を収めた資産を暗記し、その記憶に基づいて取引を行い、その後で説明を捏造します。この取引は時に効果があるので、報酬がその行動を強化します。理由は重要ではなかった。 この論文はこの失敗モードを明確に示しています。市場のみの強化学習エージェントはA株市場で37.62%の累積リターンを達成しますが、推論類似度スコアは0.4369に崩壊します。さらに悪いことに、幻覚の発生率は22.5%に跳ね上がっています。簡単に言えば、偶然に利益を生み、原因について不誠実です。 これは典型的な報酬ハッキングです。 著者らの中心的な洞察は微妙だが壊滅的である。金融市場のような確率的環境では、結果だけで推論を検証できない。ランダム性は悪い判断を良く見せることもあります。評価できるのは意思決定過程そのものだけです。 だから目的を変えるんだ。取引が利益を生んだかどうかを問うのではなく、その決定が論理的に証拠に基づいていたかどうかを問うのです。 彼らは、すべての行動を三つの次元で評価する三角検証プロトコルを導入しています。すなわち、推論が証拠に忠実であるか、決定が論理的に推論から導かれるか、そして決定が証拠と直接的に整合しているかという点です。最終スコアは3つの平均値であり、モデルが利用できる単一のショートカットを除外します。 数学的にこれが機能する理由が説明できます。 彼らは市場報酬をr = r* + ξとしてモデル化し、ここでare*は推論によって正当化される真の価値、ξは市場ノイズです。標準的な強化学習はξの分散に支配され、モデルは因果律よりもボラティリティ追いに傾いています。 重要なのは、取引自体ではありません。 ノイズの多い結果で訓練された強化学習システムに対する警告です。推論ではなく結果を評価すれば、モデルは運が良くなり、説得力のある嘘をつき、それを知性と呼ぶようになります。 全文はこちらをご覧ください: