トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
今日は2025年の論文「注文簿データによる短期暗号通貨価格トレンドの予測」を読みました。著者はXアカウント@Kevも持っているので、ご覧ください。 本論文の核心的発見は、高頻度データ前処理がモデルの複雑さよりも優先されるということです。つまり、データクリーニング後、手動で特徴量+単純モデルを設計することは、完全自動(ニューラルネットワーク、自動学習機能)のディープモデルに匹敵するか、それ以上に優れているということです。 この発見は伝統的な金融分野で主流のコンセンサスですが、暗号市場について調査を行うことは稀です。
著者の研究データは、2025年1月30日にBybitの公開インターフェースで取得されたオリジナルの注文書L2データです。 100msごとに1回のスナップショットで、1スナップあたり最大200層の注文が可能です。 主な実験は10万ピース(約166分)を使い、シーケンス実験は100万ピース(約28時間)に拡大されました。 データは無料で入手できるため、論文の再現性は良好です。
研究方法は、データを未フィルタリング、SGフィルタリング、カルマンフィルタリングの3グループに分け、6つのモデルを別々に入力し、100ms/500ms/1秒後の価格方向を、それぞれ二値分類(上昇/下落)と3つの分類(上昇/フラット/下落)のラベルで予測することです。 合計で、3(データ前処理)、×6(6セットのモデル)、×2(二値または三重分類結果の予測)、×3(3つの予測時間ウィンドウ)= 108セットの実験です。
モデルは複雑さごとに以下のようにグループ化されています。
- シンプルモデル(ロジスティック回帰およびXGBoost):モデル入力として特徴(例:ビッドアスク量差、需給不均衡)を手動で設計します。 最も速く、モデルが特徴に基づいて判断を下す理由を理解できます。
- ハイブリッドモデル(CNN+CatBoostおよびCNN+XGBoost):特徴を手動で設計するのではなく、ニューラルネットワークが自らデータの特徴を学習し、それらの特徴を意思決定ツリーに入力させる。 利点は人工的には予期しない特徴の組み合わせを見つけることができるが、欠点はこれらの特徴を説明するのが難しく、なぜ知られているのかがわからないことである。
- ディープモデル(DeepLOBおよびその簡略版):特徴抽出(今回は特徴としてシーケンス情報を抽出できる点)から最終判断まで、すべてを自動的に完了する完全なエンドツーエンドのニューラルネットワークです。
評価指標は予測精度率(技術的にはF1スコアと呼ばれ、「本当に上がったと言ったときに何回上がったか」と「本当に上がった時に何回見たか」を0から1で測るもので、高いほど良いです)。 同時にトレーニング時間を記録しましょう。 トレーニングセットの80%、テストセットの20%をクロスバリデーションなしに使用します。タイミングデータはランダムシャッフルに適さないためです。
核心ポイント1:データの品質はモデル選択よりも重要です
例として、3つのカテゴリーからなる500msの40層注文帳の予測を考えてみましょう。
- 同じXGBoostは生データを入力した際に予測精度が0.45ですが、SG平滑化後は0.54に上がり、約21%の増加です。
- モデルをより複雑なDeepLOBに置き換え、生データ(0.43)より低いもの。 DeepLOBはSGスムージング(0.52)を行っていますが、XGBoost+SG(0.54)ほど良くはありません。
データ品質の向上は、モデルの複雑さの向上をはるかに上回っています。
なぜSGろ過はこれほど効果的なのでしょうか?
生の注文帳のデータは非常に不安定で、価格と保留中の注文量はミリ秒単位で激しく跳ね上がります。これは業界が通常、マーケットメイカーが急に見積もりを調整したことによる「ちらつき」と考えています。 SGフィルタリングは、小さなウィンドウを取ってデータにスライドさせ、各位置に滑らかな曲線をウィンドウに当てはめ、曲線の中心点の値を平滑化結果として取る方法です。 単純な移動平均とは異なり、実際のトレンド転換点を摩耗させません。なぜなら、これはデータの形に曲線を当てはめるために使うためであり、おおよその平均化ではないからです。 Scipyのコード行はウィンドウ21を呼び出せます。三次の多項式は論文で最も安定したパラメータであり、研究の出発点として使えます。
2. 意思決定ウィンドウはモデルの複雑さを制約します
ここで区別すべき2つの概念があります。
- トレーニング時間はオフラインモデルトレーニング時間(1回限り)です
- 推論時間とは、モデルが実際の市場における新しいデータごとに予測を行う時間です。
推論頻度は戦略設計に依存し、意思決定ウィンドウの期間が推論速度の上限を決定し、推論速度の上限はモデルの複雑さを制約します。
...

トップ
ランキング
お気に入り
