このスタンフォードの論文は、金融界の好評の一つ「データがノイズが多すぎる」という言い訳に穴を突いている。 何十年もの間、クオンツは生価格には手作りの指標が重ねられなければ無意味だと主張してきました。この論文はより明確な質問をしています。もし信号はすでに存在していて、私たちがただ見方を間違えていただけだったのかもしれません。 著者は生の価格データのみを用いて、S&P 500銘柄の強気動動と弱気動を予測するモデルを構築しています。何の兆候もなかった。ファクターなしライブラリです。日々のOHLCVと、配当と分割を明示的に反映した調整後価格だけです。 コツはデータを増やすことではありません。それは表現です。 時系列を連続として扱うのではなく、ローリングプライスウィンドウを空間的対象として扱っています。各ウィンドウは構造化されたマトリックスとなり、チャートというより画像に近い形になります。これにより、コンボリューションフィルターはモメンタムシフト、ボラティリティクラスタリング、企業行動からの構造的な断絶などの局所的なパターンを検出できます。 これは古典計量経済学ではなく、コンピュータビジョンの直感を借りています。 データセットは、機関投資家向けの価格設定で、1銘柄あたり最大20年分の期間をカバーしています。10チャンネルがモデルにフィードし、スライドウィンドウは合成的なトリックなしに密度の高いトレーニングサンプルを作成します。正規化は特徴を越えてスケール不変に保つために使えます。 アーキテクチャ的には、これは深い1DのCNNです。初期の層は短期構造に焦点を当てています。より深い層は長い傾向を拾います。再発モデルと比べて、CNNはボラティリティの急増やイベント駆動型の跳躍をより安定して処理します。 課題はシンプルだが厳格です。数日から1か月までの地平線を越えて、結果ではなく方向を予測することです。トレーニングは慎重に調整されており、収束は怪しまれることなくクリーンに見えます。 その結果こそが人々を不快にさせるのです。 いくつかの大型株はバリデーション精度が80%台後半から90%台前半を記録しています。JPモルガンは長期的に約91%に達しています。曲線は本物の学習を示唆しており、短期間のオーバーフィットではありません。 著者は慎重さを保ちます。これはコスト、実行、遅延をモデル化していません。しかし、それは重要なことを示しています。ディープモデルは、生の価格テンソルから市場メカニズムを直接内部化し、多くのパイプラインが滑らかに解消する歪みも含めて活用できます。 その大きな意味合いは深く刺さる。 特徴量エンジニアリングの方がデータの枠組み方より重要かもしれません。適切な帰納バイアスを選択することで、モデルは通常人間がハードコーディングしようとする構造を学習します。 金融時系列を画像のような物体のように扱うことは、単なる仕掛けではありません。これは数十年にわたる手作りの前提に対する真剣な代替案であり、市場は重い人間の介入なしには読めないという考えに挑戦します。 ...