Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vandaag las ik een paper uit 2025 getiteld "Voorspellen van de kortetermijnprijsbewegingen van cryptocurrency met orderboekdata", geschreven door de auteur met het X-account @Kev, die jullie kunnen bekijken. De kernbevinding van de paper: het voorbewerken van high-frequency data is belangrijker dan de complexiteit van het model. Nadat de data goed is schoongemaakt, presteert handmatig ontworpen kenmerken + een eenvoudig model even goed als een volledig automatisch (neuraal netwerk dat kenmerken leert) diep model, en soms zelfs beter. Deze bevinding is een mainstream consensus in de traditionele financiële sector, maar er is niet veel onderzoek naar dit onderwerp in de cryptomarkt.
De onderzoeksdata zijn de ruwe L2-orderboekdata van Bybit van 30 januari 2025, verkregen via de openbare API. Elke 100 ms een snapshot, met maximaal 200 lagen koop- en verkooporders per snapshot. Het hoofdexperiment gebruikte 100.000 records (ongeveer 166 minuten), en het sequentiële experiment breidde zich uit naar 1.000.000 records (ongeveer 28 uur). De data zijn gratis beschikbaar, dus de reproduceerbaarheid van de paper is goed.
De onderzoeksmethode bestond uit het verdelen van de data in drie groepen: ongefilterd, SG-filtering en Kalman-filtering, en deze werden vervolgens ingevoerd in 6 modellen. Bij zowel binaire classificatie (stijging/daling) als drievoudige classificatie (stijging/stabiliteit/daling) werd de prijsrichting 100 ms / 500 ms / 1 s later voorspeld. In totaal zijn er 3 (data preprocessing) × 6 (6 modelgroepen) × 2 (voorspellingsresultaat als binaire of drievoudige classificatie) × 3 (drie voorspellingsvensters) = 108 experimentgroepen.
De modellen zijn als volgt ingedeeld op basis van complexiteit:
- Eenvoudige modellen (logistische regressie en XGBoost): handmatig ontworpen kenmerken (zoals het verschil in koop- en verkoopvolume, vraag- en aanbodonevenwichtigheid) worden als modelinvoer gebruikt. Dit is de snelste optie, en we kunnen begrijpen hoe het model op basis van de kenmerken oordeelt, we weten niet alleen dat het zo is, maar ook waarom.
- Hybride modellen (CNN+CatBoost en CNN+XGBoost): in plaats van handmatig ontworpen kenmerken, laat het neuraal netwerk zelf de kenmerken van de data leren en deze kenmerken worden vervolgens ingevoerd in een beslissingsboom. Het voordeel is dat het mogelijk nieuwe combinaties van kenmerken ontdekt die mensen niet zouden bedenken, maar het nadeel is dat deze kenmerken moeilijk te verklaren zijn, we weten dat het zo is, maar niet waarom.
- Diepe modellen (DeepLOB en zijn vereenvoudigde versie): een volledig end-to-end neuraal netwerk, dat automatisch alles van kenmerkextractie (en het verschil met eerder is dat deze keer sequentie-informatie als kenmerken kan extraheren) tot de uiteindelijke beoordeling afhandelt, we weten dat het zo is, maar niet waarom.
De evaluatiecriteria zijn de voorspellingsnauwkeurigheid (technisch bekend als de F1-score, die zowel "hoe vaak je zegt dat het stijgt en het daadwerkelijk stijgt" als "hoe vaak je het goed hebt als het daadwerkelijk stijgt" meet, van 0 tot 1, hoe hoger, hoe beter). Ook wordt de trainingstijd geregistreerd. De trainingsset is 80%, de testset 20%, er is geen kruisvalidatie gedaan omdat tijdreeksdata niet geschikt zijn voor willekeurige schudden.
Kernpunt 1: De kwaliteit van de data is belangrijker dan de modelkeuze.
Neem als voorbeeld de voorspelling van de drievoudige classificatie van een 500 ms 40-laags orderboek:
- Met dezelfde XGBoost, bij invoer van de ruwe data was de voorspellingsnauwkeurigheid 0.45, na SG-smoothing steeg dit naar 0.54, een verbetering van ongeveer 21%.
- Wanneer het model wordt vervangen door het complexere DeepLOB, is de nauwkeurigheid op de ruwe data zelfs lager (0.43). Zelfs met SG-smoothing (0.52) presteert DeepLOB nog steeds niet beter dan XGBoost+SG (0.54).
De verbetering van de datakwaliteit overtreft de verbetering van de modelcomplexiteit.
Waarom is SG-filtering zo effectief?
Ruwe orderboekdata zijn zeer ruw, de prijs en het ordervolume fluctueren heftig op milliseconden niveau, en in de industrie wordt vaak aangenomen dat dit "flikkeren" veroorzaakt wordt door de snelle aanpassing van de biedingen door market makers. SG-filtering gebruikt een klein venster dat over de data schuift, en bij elke positie past het een gladde curve aan binnen het venster, waarbij de waarde van het middelpunt van de curve als het gladde resultaat wordt genomen. In tegenstelling tot een eenvoudige voortschrijdend gemiddelde, verliest het geen echte trendomkeerpunt — omdat het de curve gebruikt om de vorm van de data aan te passen, in plaats van ruwweg het gemiddelde te nemen. In scipy kan dit met één regel code worden aangeroepen, een venster van 21 en een derdegraads polynoom zijn de parameters die in de paper de meest stabiele resultaten opleverden, en kunnen als startpunt voor verder onderzoek dienen.
2. De beslissingsvenster beperkt de modelcomplexiteit.
Hier moeten we twee concepten onderscheiden:
- De trainingstijd is de offline trainingstijd van het model (eenmalig)
- De inferentietijd is de tijd die het model nodig heeft om een voorspelling te doen bij elke nieuwe data in de praktijk.
De inferentiefrequentie hangt af van het ontwerp van de strategie, de duur van het beslissingsvenster bepaalt de maximale inferentiesnelheid, en de maximale inferentiesnelheid beperkt de modelcomplexiteit.
...

Boven
Positie
Favorieten
