Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Astăzi am citit un articol din 2025 intitulat "Prezicerea tendințelor prețului criptomonedelor pe termen scurt cu date din cartea de comenzi", iar autorul are și un cont X @Kev, așa că poți urmări. Constatarea principală a acestui articol este că preprocesarea datelor de înaltă frecvență are prioritate față de complexitatea modelului, adică, după curățarea datelor, proiectarea manuală a caracteristicilor + modele simple este comparabilă sau chiar mai bună decât modelele profunde complet automate (caracteristici de învățare automată a rețelelor neuronale). Această constatare este consensul principal în domeniul financiar tradițional, dar este rar să se facă cercetare pe piața cripto.
Datele de cercetare ale autorului sunt datele originale L2 din manualul de ordine de la interfața publică Bybit din 30 ianuarie 2025. Un snapshot la fiecare 100ms, cu un maxim de 200 de straturi de ordine per snapshot. Experimentul principal a luat 100.000 de bucăți (aproximativ 166 de minute), iar experimentul de secvență a fost extins la 1 milion de bucăți (aproximativ 28 de ore). Datele sunt disponibile gratuit, deci reproductibilitatea hârtiei este bună.
Metoda de cercetare este de a împărți datele în trei grupuri: nefiltrate, filtrate SG și filtrate Kalman, apoi introducerea a 6 modele separat și prezicerea direcției prețului după 100ms / 500ms / 1s sub etichetele de clasificare binară (creștere/scădere) și trei clasificări (creștere/plat/scădere), respectiv. În total, 3 (preprocesare a datelor), × 6 (6 seturi de modele), ×2 (predicție a rezultatelor binare sau triple clasificări), × 3 (trei ferestre de timp de predicție) = 108 seturi de experimente.
Modelele sunt grupate după complexitate astfel:
- Modele simple (Regresie Logistică și XGBoost): Proiectează manual caracteristici (de exemplu, diferențe de volum ofertă-cerere, dezechilibre cerere-ofertă) ca intrări ale modelului. Cel mai rapid, și putem înțelege cum modelul face judecăți pe baza caracteristicilor sale, și știm de ce este așa.
- Modele hibride (CNN+CatBoost și CNN+XGBoost): În loc să proiecteze manual funcționalitățile, se lasă rețeaua neuronală să învețe singură caracteristicile datelor și apoi să introducă aceste caracteristici în arborele decizional. Avantajul este că este posibil să găsești combinații de caracteristici care sunt neașteptate de către artificial, dar dezavantajul este că aceste caracteristici sunt greu de explicat și nu știm de ce sunt cunoscute.
- Model Profund (DeepLOB și versiunea sa simplificată): O rețea neuronală complet end-to-end care completează automat totul, de la extragerea caracteristicilor (diferența este că de data aceasta poate extrage informații de secvență ca caracteristică) până la judecata finală.
Metrica evaluării este rata de acuratețe a predicției (numită tehnic scor F1, care măsoară "de câte ori ai crescut cu adevărat când ai spus că a crescut cu adevărat" și "de câte ori ai prins când a crescut cu adevărat", 0 la 1, cu cât mai mare, cu atât mai bine). Înregistrează timpul de antrenament în același timp. 80% din setul de antrenament și 20% din setul de test, fără validare încrucișată, deoarece datele de sincronizare nu sunt potrivite pentru amestecarea aleatorie.
Punct de bază 1: Calitatea datelor este mai importantă decât selecția modelului
Luați ca exemplu predicția unui carnet de comenzi cu trei categorii de 500ms și 40 de straturi:
- Același XGBoost are o acuratețe de predicție de 0,45 la introducerea datelor brute, dar aceasta crește la 0,54 după netezirea SG, o creștere de aproximativ 21%.
- Înlocuirea modelului cu un DeepLOB mai complex, care este mai scăzut în datele brute (0,43). Chiar dacă DeepLOB face netezirea SG (0.52), tot nu este la fel de bun ca XGBoost+SG (0.54).
Îmbunătățirea calității datelor depășește cu mult îmbunătățirea complexității modelului.
De ce este filtrarea SG atât de eficientă?
Datele brute din cartea de ordine sunt foarte fluctuante, iar prețul și volumul ordinelor în așteptare sar violent la nivelul milisecundei, ceea ce industria consideră de obicei un "scânteiere" cauzat de market makerii care ajustează rapid cotațiile. Filtrarea SG înseamnă să iei o fereastră mică și să glisezi pe datele, să potrivești o curbă netedă în fereastră la fiecare poziție și să iei valoarea punctului central al curbei ca rezultat al netezirii. Spre deosebire de o simplă medie mobilă, nu tocește punctul real de cotitură al tendinței – pentru că folosește curbe pentru a se potrivi cu forma datelor, nu o medie aproximativă. O linie de cod în scipy poate fi apelată, fereastra 21, iar polinoamele de ordinul trei sunt cei mai stabili parametri din lucrare, care pot fi folosiți ca punct de plecare pentru cercetarea ta.
2. Fereastra decizională constrânge complexitatea modelului
Două concepte trebuie distinse aici:
- Timpul de antrenament este timpul de antrenament offline al modelului (o singură dată)
- Timpul de inferență este momentul în care modelul face predicții pentru fiecare nouă dată pe piața reală
Frecvența inferenței depinde de designul strategiei, iar durata ferestrei decizionale determină limita superioară a vitezei de inferență, iar limita superioară a vitezei de inferență limitează complexitatea modelului.
...

Limită superioară
Clasament
Favorite
