Dziś przeczytałem artykuł z 2025 roku pt. „Prognozowanie krótkoterminowych cen kryptowalut na podstawie danych z książki zamówień”, autorem jest X konto @Kev, możecie to sprawdzić. Kluczowe odkrycie artykułu: przetwarzanie danych wysokiej częstotliwości jest ważniejsze niż złożoność modelu, to znaczy, że po odpowiednim oczyszczeniu danych, ręczne projektowanie cech + prosty model, osiąga wyniki porównywalne z całkowicie automatycznym (neuralne sieci uczące się cech) modelem głębokim, a nawet lepsze. To odkrycie jest powszechnie akceptowane w tradycyjnej finansach, ale w badaniach nad rynkiem kryptowalut jest rzadkością. Dane badawcze pochodzą z 30 stycznia 2025 roku z publicznego interfejsu Bybit, z surowych danych L2 z książki zamówień. Co 100 ms zrobiono zrzut, a każdy zrzut zawierał maksymalnie 200 poziomów zleceń kupna i sprzedaży. Główne eksperymenty wykorzystały 100 000 próbek (około 166 minut), a eksperymenty sekwencyjne rozszerzono do 1 000 000 próbek (około 28 godzin). Dane są dostępne za darmo, więc powtarzalność badań jest dobra. Metoda badawcza polegała na podzieleniu danych na trzy grupy: bez filtracji, filtr SG, filtr Kalman, a następnie wprowadzeniu ich do 6 modeli, aby przewidzieć kierunek cen po 100 ms / 500 ms / 1 s w dwóch klasyfikacjach (wzrost/spadek) i (wzrost/stagnacja/spadek). Łącznie przeprowadzono 3 (przetwarzanie danych) × 6 (6 grup modeli) × 2 (wyniki przewidywania jako klasyfikacja binarna lub trójkowa) × 3 (trzy okna czasowe przewidywania) = 108 grup eksperymentów. Modele zostały podzielone według złożoności w następujący sposób: - Prosty model (regresja logistyczna i XGBoost): ręcznie zaprojektowane cechy (np. różnica w wolumenie zleceń, nierównowaga popytu i podaży) jako dane wejściowe do modelu. Najszybszy, a my możemy zrozumieć, jak model podejmuje decyzje na podstawie cech, wiedząc, dlaczego tak się dzieje. - Model mieszany (CNN+CatBoost i CNN+XGBoost): nie projektuje się już ręcznie cech, ale pozwala się sieci neuronowej na samodzielne uczenie się cech danych, a następnie wprowadza te cechy do drzewa decyzyjnego. Zaletą jest możliwość odkrycia kombinacji cech, które nie przyszłyby do głowy człowiekowi, wadą jest trudność w ich interpretacji, wiedząc, dlaczego tak się dzieje, nie zawsze rozumiemy, dlaczego. - Model głęboki (DeepLOB i jego uproszczona wersja): całkowicie end-to-end sieć neuronowa, od ekstrakcji cech (i różnicy w porównaniu do poprzednich, tym razem można wydobywać informacje sekwencyjne jako cechy) do ostatecznej decyzji, wszystko odbywa się automatycznie, wiedząc, dlaczego, ale nie rozumiejąc, dlaczego. Wskaźniki oceny to dokładność przewidywania (technicznie nazywana F1 score, jednocześnie mierzy "ile razy, gdy mówisz, że wzrośnie, rzeczywiście wzrosło" oraz "ile razy, gdy rzeczywiście wzrosło, udało ci się to uchwycić", od 0 do 1, im wyższa, tym lepsza). Równocześnie rejestruje się czas treningu. Zbiór treningowy 80%, zbiór testowy 20%, nie przeprowadzono walidacji krzyżowej, ponieważ dane czasowe nie nadają się do losowego mieszania. Kluczowy punkt 1: Jakość danych jest ważniejsza niż wybór modelu Na przykładzie prognozy dla trójklasowej 500 ms z 40 poziomami książki zamówień: - Ta sama XGBoost, przy wprowadzeniu surowych danych, dokładność przewidywania wynosi 0,45, po zastosowaniu wygładzania SG wzrasta do 0,54, co stanowi wzrost o około 21%. - Zmieniając model na bardziej złożony DeepLOB, na surowych danych uzyskuje się nawet niższy wynik (0,43). Nawet jeśli DeepLOB również zastosował wygładzanie SG (0,52), nadal nie dorównuje XGBoost+SG (0,54). Poprawa jakości danych znacznie przewyższa poprawę wyników złożoności modelu. Dlaczego filtr SG działa tak dobrze? Surowe dane z książki zamówień są bardzo chaotyczne, ceny i wolumeny zleceń gwałtownie skaczą w milisekundach, w branży powszechnie uważa się, że jest to spowodowane "migotaniem" wynikającym z szybkiej korekty ofert przez market makerów. Filtr SG przesuwa małe okno po danych, w każdym miejscu dopasowuje gładką krzywą w oknie, a wartość punktu środkowego krzywej jest przyjmowana jako wynik wygładzania. W przeciwieństwie do prostego ruchomego średniego, nie wygładza rzeczywistych punktów zwrotnych trendu — ponieważ dopasowuje krzywą do kształtu danych, a nie po prostu bierze średnią. W scipy można to wywołać jedną linią kodu, okno 21, trzeciego stopnia wielomian to parametry, które w artykule wykazały się największą stabilnością, mogą być punktem wyjścia dla badań. 2. Okno decyzyjne ogranicza złożoność modelu Należy rozróżnić dwa pojęcia: - Czas treningu to czas treningu modelu offline (jednorazowy) - Czas wnioskowania to czas, w którym model dokonuje prognozy, gdy przychodzi nowy zestaw danych w rzeczywistości Częstotliwość wnioskowania zależy od projektowania strategii, długość okna decyzyjnego określa górny limit prędkości wnioskowania, a górny limit prędkości wnioskowania ogranicza złożoność modelu. ...