Tänään luin vuoden 2025 artikkelin "Predicting Short-term Cryptocurrency Price Trends with Order Book Data", ja kirjoittajalla on myös X-tili @Kev, joten voit mennä katsomaan. Tämän artikkelin keskeinen havainto on, että korkeataajuinen datan esikäsittely menee mallin monimutkaisuuden edelle, eli datan puhdistuksen jälkeen ominaisuuksien + yksinkertaisten mallien manuaalinen suunnittelu on verrattavissa tai jopa parempi kuin täysin automaattisten (neuroverkkojen automaattisten oppimisominaisuuksien) syvämallit. Tämä havainto on perinteisen rahoitusalan yleinen konsensus, mutta kryptomarkkinoista tehdään harvinaista tutkimusta. Kirjoittajan tutkimusdata on alkuperäinen tilauskirjan L2-data Bybitin julkisesta käyttöliittymästä 30. tammikuuta 2025. Yksi snapshot joka 100 ms välein, enintään 200 tilauskerrosta per snapshot. Pääkoe kesti 100 000 palaa (noin 166 minuuttia), ja sekvenssikoe laajennettiin miljoonaan palaan (noin 28 tuntia). Data on vapaasti saatavilla, joten artikkelin toistettavuus on hyvä. Tutkimusmenetelmä on jakaa data kolmeen ryhmään: suodattamattomaan, SG-suodatettuun ja Kalman-suodatettuun ryhmään, ja sitten syötetään kuusi mallia erikseen, ja ennustetaan hintasuunta 100ms / 500ms / 1s jälkeen binääriluokittelun (nousu/lasku) ja kolmen luokituksen (nousu/tasa/lasku) nimikkeiden mukaisesti. Yhteensä 3 (datan esikäsittely), × 6 (6 mallisarjaa), ×2 (binääri- tai kolmoisluokittelutulosten ennustaminen), × 3 (kolme ennustusaikaa) = 108 kokeiden sarjaa. Mallit on ryhmitelty monimutkaisuuden mukaan seuraavasti: - Yksinkertaiset mallit (logistiikkaregressio ja XGBoost): Suunnittele ominaisuuksia manuaalisesti (esim. tarjous-myyntivolyymien erot, kysynnän ja tarjonnan epätasapainot) mallisyötteiksi. Nopein, ja ymmärrämme, miten malli tekee arvioita ominaisuuksiensa perusteella, ja tiedämme miksi näin on. - Hybridimallit (CNN+CatBoost ja CNN+XGBoost): Sen sijaan, että ominaisuuksia suunnitelltaisiin manuaalisesti, anna neuroverkon oppia datan ominaisuudet itse ja syöttää ne sitten päätöspuuhun. Etuna on, että on mahdollista löytää yllättäviä piirteiden yhdistelmiä, jotka ovat keinotekoisia, mutta haittapuolena on, että näitä piirteitä on vaikea selittää, eikä tiedetä, miksi ne tunnetaan. - Syvämalli (DeepLOB ja sen yksinkertaistettu versio): Täysin kokonaisvaltainen neuroverkko, joka suorittaa automaattisesti kaiken ominaisuuksien poiminnasta (erona on, että tällä kertaa se voi poimia sekvenssitietoa ominaisuutena) aina lopulliseen tuomioon. Arviointimittari on ennusteen tarkkuusaste (teknisesti nimeltään F1-pistemäärä, joka mittaa "kuinka monta kertaa todella nousit, kun sanoit sen todella nousseen" ja "kuinka monta kertaa sait sen kiinni, kun se todella nousi", 0–1, mitä korkeampi sen parempi). Kirjaa harjoitusaika samaan aikaan. 80 % koulutusjoukosta ja 20 % testijoukosta ilman ristiinvalidointia, koska ajoitusdata ei sovellu satunnaiseen sekoitukseen. Ydinkohta 1: Datan laatu on tärkeämpää kuin mallin valinta Otetaan esimerkiksi kolmen kategorian 500ms 40-kerroksinen tilauskirjan ennuste: - Saman XGBoostin ennustetarkkuus on 0,45 raakadatan syöttäessä, mutta se nousee 0,54:ään SG-tasoituksen jälkeen, mikä on noin 21 % kasvu. - Mallin vaihtaminen monimutkaisempaan DeepLOB:iin, joka on raakadatassa alhaisempi (0,43). Vaikka DeepLOB tekee SG smoothingia (0.52), se ei silti ole yhtä hyvä kuin XGBoost+SG (0.54). Datan laadun parantuminen ylittää selvästi mallin monimutkaisuuden parantumisen. Miksi SG-suodatus on niin tehokasta? Raaka tilausaineisto on hyvin pörröistä, ja hinta sekä odottavat tilausvolyymit hyppäävät voimakkaasti millisekunnin tasolla, mikä ala yleensä uskoo olevan "välähdys", jonka aiheuttaa markkinatekijöiden nopea tarjousten säätäminen. SG-suodatus tarkoittaa, että otetaan pieni ikkuna ja liu'utaan datan päälle, sovitetaan sileä käyrä ikkunaan jokaiseen kohtaan ja käyrän keskipisteen arvo otetaan tasoitustulokseksi. Toisin kuin yksinkertainen liukuva keskiarvo, se ei kuluta todellista trendin käännekohtaa – koska se käyttää käyriä datan muodon sovittamiseen, ei karkeasti keskiarvoista. Scipyn koodirivi voidaan kutsua ikkunaksi 21, ja kolmannen kertaluvun polynomit ovat paperin vakaimmat parametrit, joita voi käyttää tutkimuksesi lähtökohtana. 2. Päätösikkuna rajoittaa mallin monimutkaisuutta Tässä tulisi erottaa kaksi käsitettä: - Koulutusaika on offline-mallin koulutusaikaa (kertaluonteinen) - Päättelyaika on aika, jolloin malli tekee ennusteita jokaisesta uudesta datapalasta reaalimarkkinoilla Päättelytaajuus riippuu strategian suunnittelusta, ja päätösikkunan kesto määrittää päättelyn nopeuden ylärajan, ja päättelyn nopeuden yläraja rajoittaa mallin monimutkaisuutta. ...