Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oggi ho letto un articolo del 2025 intitolato "Previsione delle tendenze dei prezzi a breve termine delle criptovalute utilizzando i dati del libro degli ordini", l'autore ha anche l'account X @Kev, potete andarlo a vedere. La scoperta principale dell'articolo: la pre-elaborazione dei dati ad alta frequenza è prioritaria rispetto alla complessità del modello, ovvero, dopo aver effettuato una buona pulizia dei dati, la progettazione manuale delle caratteristiche + un modello semplice ha prestazioni comparabili, se non migliori, rispetto ai modelli profondi completamente automatici (apprendimento automatico delle caratteristiche tramite reti neurali). Questa scoperta è un consenso mainstream nel settore finanziario tradizionale, ma non è molto comune nella ricerca su questo aspetto nel mercato delle criptovalute.
I dati di ricerca dell'autore provengono da dati L2 del libro degli ordini grezzi dell'API pubblica di Bybit del 30 gennaio 2025. Ogni 100 ms viene scattato un'istantanea, con un massimo di 200 livelli di ordini di acquisto e vendita per ogni istantanea. L'esperimento principale ha utilizzato 100.000 righe (circa 166 minuti), mentre l'esperimento sequenziale è stato esteso a 1.000.000 di righe (circa 28 ore). I dati sono disponibili gratuitamente, quindi la riproducibilità dell'articolo è buona.
Il metodo di ricerca consiste nel suddividere i dati in tre gruppi: non filtrati, filtro SG e filtro di Kalman, e poi inserire ciascun gruppo in 6 modelli, prevedendo la direzione del prezzo dopo 100 ms / 500 ms / 1 s sotto due etichette: classificazione binaria (aumento / diminuzione) e classificazione ternaria (aumento / stabile / diminuzione). In totale ci sono 3 (pre-elaborazione dei dati) × 6 (6 gruppi di modelli) × 2 (risultato della previsione come classificazione binaria o ternaria) × 3 (tre finestre temporali di previsione) = 108 gruppi di esperimenti.
I modelli sono suddivisi in base alla complessità come segue:
- Modelli semplici (regressione logistica e XGBoost): progettazione manuale delle caratteristiche (ad esempio, differenza di volume di acquisto e vendita, squilibrio tra domanda e offerta), utilizzate come input per il modello. Sono i più veloci e possiamo capire come il modello prende decisioni in base alle caratteristiche, comprendendo sia il "come" che il "perché".
- Modelli misti (CNN+CatBoost e CNN+XGBoost): non si progettano più manualmente le caratteristiche, ma si lascia che la rete neurale apprenda le caratteristiche dai dati, e poi si inseriscono queste caratteristiche in un albero decisionale. Il vantaggio è che potrebbero scoprire combinazioni di caratteristiche che non sarebbero state pensate manualmente, ma il difetto è che queste caratteristiche sono difficili da spiegare, comprendendo solo il "come" e non il "perché".
- Modelli profondi (DeepLOB e la sua versione semplificata): rete neurale completamente end-to-end, dall'estrazione delle caratteristiche (e la differenza rispetto a prima è che questa volta può estrarre informazioni sequenziali come caratteristiche) fino alla decisione finale, tutto completato automaticamente, comprendendo il "come" ma non il "perché".
L'indicatore di valutazione è la precisione della previsione (tecnicamente chiamata punteggio F1, che misura sia "quante volte hai previsto un aumento e si è realmente verificato" sia "quante volte hai colto un aumento quando si è realmente verificato", da 0 a 1, più è alto, meglio è). Viene anche registrato il tempo di addestramento. 80% del set di addestramento, 20% del set di test, non è stata effettuata la convalida incrociata, poiché i dati temporali non sono adatti per essere mescolati casualmente.
Punto chiave 1: la qualità dei dati è più importante della scelta del modello.
Prendendo come esempio la previsione del libro degli ordini a 40 livelli in classificazione ternaria a 500 ms:
- Con lo stesso XGBoost, quando si utilizzano dati grezzi, la precisione della previsione è 0.45, dopo aver applicato la levigatura SG sale a 0.54, un miglioramento di circa il 21%.
- Sostituendo il modello con il più complesso DeepLOB, la precisione sui dati grezzi è addirittura più bassa (0.43). Anche se DeepLOB ha applicato la levigatura SG (0.52), non raggiunge comunque XGBoost+SG (0.54).
Il miglioramento della qualità dei dati supera di gran lunga l'effetto dell'aumento della complessità del modello.
Perché il filtro SG funziona così bene?
I dati grezzi del libro degli ordini sono molto rumorosi, i prezzi e i volumi degli ordini oscillano drasticamente a livello di millisecondi, e nel settore si ritiene comunemente che questo sia causato dai market maker che aggiustano rapidamente le quotazioni, creando "fluttuazioni". Il filtro SG utilizza una piccola finestra che scorre sui dati, e ogni volta che raggiunge una posizione, adatta una curva liscia all'interno della finestra, prendendo il valore del punto centrale della curva come risultato levigato. A differenza della media mobile semplice, non elimina i veri punti di inversione della tendenza, poiché si adatta alla forma dei dati con una curva, piuttosto che prendere semplicemente la media. È possibile chiamarlo con una riga di codice in scipy, la finestra 21 e il polinomio di terzo grado sono i parametri più stabili dell'articolo, e possono essere un punto di partenza per la vostra ricerca.
2. La finestra decisionale limita la complessità del modello.
Qui è necessario distinguere due concetti:
- Il tempo di addestramento è il tempo di addestramento del modello offline (una tantum).
- Il tempo di inferenza è il tempo in cui il modello fa una previsione ogni volta che arriva un nuovo dato in tempo reale.
La frequenza di inferenza dipende dalla progettazione della strategia, la durata della finestra decisionale determina il limite superiore della velocità di inferenza, e il limite superiore della velocità di inferenza limita la complessità del modello.
...

Principali
Ranking
Preferiti
