Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnes jsem četl článek z roku 2025 "Predikce krátkodobých trendů cen kryptoměn pomocí dat z knihy objednávek" a autor má také @Kev na účtu X, takže si můžete jít a sledovat. Hlavním zjištěním tohoto článku je, že předem má přednost vysokofrekvenční předzpracování dat před složitostí modelu, tedy po čištění dat je ruční navrhování rysů + jednoduchých modelů srovnatelné nebo dokonce lepší než plně automatické (neuronové sítě automatické učení funkce) hluboké modely. Tento nález je hlavním konsenzem v tradiční finanční oblasti, ale je vzácné provádět výzkum na kryptotrhu.
Výzkumná data autora jsou původní data objednávky L2 z veřejného rozhraní Bybit ze dne 30. ledna 2025. Jeden snímek každých 100 ms, s maximálně 200 vrstvami příkazů na snímek. Hlavní experiment trval 100 000 kusů (asi 166 minut) a sekvenční experiment byl rozšířen na 1 milion kusů (asi 28 hodin). Data jsou volně dostupná, takže reprodukovatelnost článku je dobrá.
Výzkumná metoda spočívá v rozdělení dat do tří skupin: nefiltrovaných, SG filtrovaných a Kalmanových filtrů, a poté zadání 6 modelů samostatně a předpověď směru ceny po 100 ms / 500ms / 1s pod označením binární klasifikace (růst/pokles) a tří klasifikací (růst/plochý/kles) v uvedeném pořadí. Celkem 3 (předzpracování dat), × 6 (6 sad modelů), ×2 (predikce binárních nebo trojitých klasifikačních výsledků), × 3 (tři časová okna predikce) = 108 sad experimentů.
Modely jsou seskupeny podle složitosti následovně:
- Jednoduché modely (logistická regrese a XGBoost): Manuálně navrhujte funkce (např. rozdíly mezi objemem nabídky a poptávky, nerovnováhy nabídky a poptávky) jako vstupy do modelu. Nejrychlejší, a můžeme pochopit, jak model dělá soudy na základě svých vlastností, a víme, proč tomu tak je.
- Hybridní modely (CNN+CatBoost a CNN+XGBoost): Místo ručního navrhování funkcí nechte neuronovou síť, aby se sama naučila vlastnosti dat a poté tyto vlastnosti zadala do rozhodovacího stromu. Výhodou je, že je možné najít kombinace vlastností, které jsou uměle nečekané, ale nevýhodou je, že tyto vlastnosti je obtížné vysvětlit a nevíme, proč jsou známé.
- Deep Model (DeepLOB a jeho zjednodušená verze): Kompletně end-to-end neuronová síť, která automaticky dokončuje vše od extrakce příznaků (rozdíl je v tom, že tentokrát dokáže extrahovat sekvenční informace jako funkci) až po konečné rozhodnutí.
Hodnotící metrika je míra přesnosti předpovědi (technicky nazývaná F1 skóre, která měří "kolikrát jste opravdu vzrostli, když jste řekli, že opravdu stoupal" a "kolikrát jste to chytili, když to opravdu stouplo", 0 až 1, čím vyšší, tím lepší). Současně zaznamenávat čas na trénink. 80 % trénovací sady a 20 % testovací množiny, bez křížové validace, protože časová data nejsou vhodná pro náhodné míchání.
Základní bod 1: Kvalita dat je důležitější než výběr modelu
Vezměme si například predikci tříkategoriové knihy pořadů 500 ms a 40 vrstev:
- Stejný XGBoost má přesnost predikce 0,45 při zadávání surových dat, ale po vyhlazení SG stoupá na 0,54, což je nárůst asi o 21 %.
- Výměna modelu za složitější DeepLOB, který je na surových datech nižší (0,43). I když DeepLOB dělá SG vyhlazování (0,52), stále to není tak dobré jako XGBoost+SG (0,54).
Zlepšení kvality dat výrazně převyšuje zlepšení složitosti modelů.
Proč je SG filtrování tak účinné?
Surová data z knihy objednávek jsou velmi nejasná a cena i objem čekajících objednávek prudce vyskakují na úrovni milisekund, kterou průmysl obvykle považuje za "blikání" způsobené rychlými úpravami nabídek tvůrci trhu. SG filtrování znamená vzít malé okno, posunout po datech, vložit hladkou křivku do okna na každé pozici a vzít hodnotu středového bodu křivky jako výsledek vyhlazení. Na rozdíl od jednoduchého klouzavého průměru neopotřebuje skutečný zlomový bod trendu – protože používá křivky k přizpůsobení tvaru dat, nikoli zhruba průměr. Lze v Scipy nazvat řádek kódu, okno 21 a polynomy třetího řádu jsou nejstabilnější parametry v článku, které lze použít jako výchozí bod pro váš výzkum.
2. Rozhodovací okno omezuje složitost modelu
Zde je třeba rozlišit dva pojmy:
- Čas trénování je čas trénování offline modelu (jednorázové)
- Čas inference je doba, kdy model předpovídá každý nový údaj na reálném trhu
Frekvence inference závisí na návrhu strategie a délka rozhodovacího okna určuje horní hranici rychlosti inference, přičemž horní hranice rychlosti inference omezuje složitost modelu.
...

Top
Hodnocení
Oblíbené
