Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Idag läste jag en artikel från 2025 "Predicting Short-term Cryptocurrency Price Trends with Order Book Data", och författaren har också ett X-konto @Kev, så du kan gå och titta. Kärnfyndet i denna artikel är att högfrekvent dataförbehandling går före modellens komplexitet, det vill säga, efter datarensning är manuell design av funktioner + enkla modeller jämförbart med eller till och med bättre än helt automatiska (neurala nätverk med automatiska inlärningsfunktioner) djupa modeller. Denna upptäckt är den allmänna konsensusen inom det traditionella finansområdet, men det är ovanligt att man forskar på kryptomarknaden.
Författarens forskningsdata är originaldata från orderboken L2 från Bbits publika gränssnitt den 30 januari 2025. En snapshot var 100 ms, med maximalt 200 lager av order per snapshot. Huvudexperimentet tog 100 000 bitar (cirka 166 minuter), och sekvensexperimentet utökades till 1 miljon bitar (cirka 28 timmar). Datan är fritt tillgänglig, så artikelns reproducerbarhet är god.
Forskningsmetoden är att dela in datan i tre grupper: ofiltrerad, SG-filtrerad och Kalman-filtrerad, och sedan mata in 6 modeller separat och förutsäga prisriktningen efter 100 ms / 500 ms / 1 under etiketterna binär klassificering (stig/fall) respektive tre klassificeringar (stig/platt/fall). Totalt gäller 3 (dataförbehandling), × 6 (6 uppsättningar modeller), ×2 (förutsägelse av binära eller trippelklassificeringsresultat), × 3 (tre prediktionsfönster) = 108 uppsättningar experiment.
Modellerna är grupperade efter komplexitet enligt följande:
- Enkla modeller (logistisk regression och XGBoost): Manuellt designa funktioner (t.ex. skillnader i volym mellan bud och efterfrågan, obalanser mellan utbud och efterfrågan) som modellindata. Den snabbaste, och vi kan förstå hur modellen gör bedömningar baserat på sina egenskaper, och vi vet varför det är så.
- Hybridmodeller (CNN+CatBoost och CNN+XGBoost): Istället för att manuellt designa funktioner, låt det neurala nätverket själv lära sig datans egenskaper och sedan mata in dessa funktioner i beslutsträdet. Fördelen är att det är möjligt att hitta kombinationer av egenskaper som är oväntade av artificiella, men nackdelen är att dessa drag är svåra att förklara, och vi vet inte varför de är kända.
- Deep Model (DeepLOB och dess förenklade version): Ett helt end-to-end neuralt nätverk som automatiskt slutför allt från feature-extraktion (skillnaden är att det kan extrahera sekvensinformation som en feature denna gång) till slutgiltigt omdöme.
Utvärderingsmåttet är prediktionsnoggrannhetsgraden (tekniskt kallad F1-poäng, som mäter "hur många gånger gick du verkligen upp när du sa att den verkligen gick upp" och "hur många gånger du upptäckte den när den verkligen gick upp", 0 till 1, ju högre desto bättre). Registrera träningstid samtidigt. 80 % av träningssetet och 20% av testsetet, utan korsvalidering, eftersom tidsdata inte är lämplig för slumpmässig blandning.
Kärnpunkt 1: Datakvalitet är viktigare än modellval
Ta förutsägelsen av en trekategoris 500ms 40-lagers orderbok som exempel:
- Samma XGBoost har en prediktionsnoggrannhet på 0,45 vid inmatning av rådata, men stiger till 0,54 efter SG-utjämning, en ökning med cirka 21 %.
- Byta ut modellen mot en mer komplex DeepLOB, som har lägre rådata (0,43). Även om DeepLOB gör SG-utjämning (0,52) är det fortfarande inte lika bra som XGBoost+SG (0,54).
Förbättringen i datakvalitet överväger vida förbättringen i modellens komplexitet.
Varför är SG-filtrering så effektiv?
Den råa orderboksdatan är mycket frisig, och priset och volymen av väntande order skjuter kraftigt i millisekundsnivå, vilket branschen vanligtvis tror är en "flimmer" orsakad av att marknadsaktörer snabbt justerar kurserna. SG-filtrering innebär att man tar ett litet fönster och glider på datan, passar en jämn kurva i fönstret vid varje position och tar värdet av kurvans mittpunkt som utjämningsresultat. Till skillnad från ett enkelt glidande medelvärde sliter den inte ut den verkliga trendvändpunkten – eftersom den använder kurvor för att passa datans form, inte grovt genomsnittlig. En kodrad i scipy kan kallas fönster 21, och tredje ordningens polynom är de mest stabila parametrarna i artikeln, vilket kan användas som utgångspunkt för din forskning.
2. Beslutsfönstret begränsar modellens komplexitet
Två begrepp bör särskiljas här:
- Träningstid är offline-modellträningstid (engångstid)
- Inferenstid är den tid då modellen gör förutsägelser för varje ny databit på den verkliga marknaden
Inferensfrekvensen beror på strategidesignen, och beslutsfönstrets varaktighet bestämmer den övre gränsen för inferenshastigheten, och den övre gränsen för inferenshastigheten begränsar modellens komplexitet.
...

Topp
Rankning
Favoriter
