Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bugün 2025 tarihli "Sipariş Defteri Verileriyle Kısa Vadeli Kripto Para Fiyat Trendlerini Tahmin Etmek" adlı bir makale okudum ve yazarın ayrıca bir X hesabı @Kev var, böylece gidip izleyebilirsiniz. Bu makalenin temel bulgusu, yüksek frekanslı veri ön işlemenin model karmaşıklığından daha öncelikli olduğudur; yani veri temizliğinden sonra manuel olarak özellikler + basit modeller tasarımı, tam otomatik (sinir ağı otomatik öğrenme özellikleri) derin modellerle karşılaştırılabilir veya hatta daha iyidir. Bu bulgu, geleneksel finans alanında ana akım uzlaşmadır, ancak kripto piyasası hakkında araştırma yapmak nadirdir.
Yazarın araştırma verileri, 30 Ocak 2025 tarihli Bybit'in kamu arayüzünden alınan orijinal sipariş defteri L2 verileridir. Her 100ms'de bir snapshot, her snapshot için maksimum 200 katman sipariş verilir. Ana deney 100.000 parça (yaklaşık 166 dakika) aldı ve dizi deneyi 1 milyon parçaya (yaklaşık 28 saat) genişletildi. Veriler serbestçe erişilebilir, bu yüzden makalenin tekrarlanabilirliği iyidir.
Araştırma yöntemi, verileri üç gruba ayırmak: filtrelenmemiş, SG filtreli ve Kalman filtreli, ardından 6 modeli ayrı ayrı girmek; fiyat yönü 100ms / 500ms / 1s sonrasında ikili sınıflandırma (yükseliş/düşüş) ve üç sınıflandırma (yükseliş/düz/düşüş) etiketleri altında tahmin etmek. Toplamda, 3 (veri ön işleme), × 6 (6 model seti), ×2 (ikili veya üçlü sınıflandırma sonuçlarının tahmini), × 3 (üç tahmin zaman aralığı) = 108 deney kümesi.
Modeller karmaşıklığa göre aşağıdaki şekilde gruplandırılmıştır:
- Basit Modeller (Lojistik Regresyon ve XGBoost): Modelleri manuel olarak tasarlayarak özellikleri (örneğin, teklif-talep hacmi farkları, arz-talep dengesizlikleri) model girişi olarak tasarlarlar. En hızlı olanı ve modelin özelliklerine göre nasıl karar verdiğini anlayabiliyoruz ve neden böyle olduğunu biliyoruz.
- Hibrit Modeller (CNN+CatBoost ve CNN+XGBoost): Özellikleri manuel olarak tasarlamak yerine, sinir ağı verilerin özelliklerini kendi başına öğrenebilir ve ardından bu özellikleri karar ağacına aktarır. Avantajı, yapay ve beklenmedik özelliklerin kombinasyonlarını bulabilmemizdir, ancak dezavantajı bu özelliklerin açıklanmasının zor olması ve neden bilindiğini bilmememizdir.
- Derin Model (DeepLOB ve basitleştirilmiş versiyonu): Tamamen uçtan uca bir sinir ağı, özellik çıkarmaktan (farkı şu ki, bu sefer dizi bilgisini bir özellik olarak çıkarabilmesi) nihai karara kadar her şeyi otomatik olarak tamamlar.
Değerlendirme ölçütü, tahmin doğruluk oranıdır (teknik olarak F1 puanı olarak adlandırılır, "gerçekten yükseldiğini söylediğinde gerçekten kaç kez yükseldin" ve "gerçekten yükseldiğinde kaç kez yakaladığını" ölçür, 0'a 1, ne kadar yüksek olursa o kadar iyi). Aynı anda antrenman süresini kaydet. Eğitim setinin %80'i ve test setinin %20'si, çapraz doğrulama olmadan, çünkü zamanlama verileri rastgele karıştırmaya uygun değildir.
Temel nokta 1: Veri kalitesi model seçiminden daha önemlidir
Örneğin, üç kategorili 500ms 40 katmanlı bir sipariş defterinin tahminini ele alalım:
- Aynı XGBoost'un ham veri girerken tahmin doğruluğu 0.45'dir, ancak SG düzgünleştirmesinden sonra yaklaşık %21 artış olarak 0.54'e yükselir.
- Modelin daha karmaşık bir DeepLOB ile değiştirilmesi, ki bu da ham veri açısından daha düşük (0.43). DeepLOB SG yumuşatma (0.52) yapsa da, yine de XGBoost+SG (0.54) kadar iyi değil.
Veri kalitesindeki iyileşme, model karmaşıklığındaki iyileşmeyi çok daha bastırır.
SG filtreleme neden bu kadar etkili?
Ham sipariş defteri verileri oldukça belirsiz ve fiyat ile bekleyen sipariş hacmi milisaniye seviyesinde şiddetle sıçramaktadır; sektör genellikle bunun piyasa yapıcıların fiyat tekliflerini hızlıca ayarlamasından kaynaklanan bir "titreme" olduğuna inanır. SG filtreleme, küçük bir pencere alıp veriyi kaydırmak, her konumda pencereye düzgün bir eğri yerleştirmek ve eğrinin merkez noktasının değerini düzeltme sonucu olarak almaktır. Basit bir hareketli ortalamanın aksine, gerçek trend dönüş noktasını aşındırmaz - çünkü verinin şekline uymak için eğriler kullanır, kabaca ortalama olarak değil. Scipy dilinde bir kod satırı pencere 21 olarak çağrılabilir ve üçüncü dereceden polinomlar makaledeki en kararlı parametrelerdir; bunlar araştırmanız için bir başlangıç noktası olarak kullanılabilir.
2. Karar penceresi model karmaşıklığını sınırlar
Burada iki kavram ayırt edilmelidir:
- Eğitim süresi, çevrimdışı model eğitim süresidir (tek seferlik)
- Çıkarım süresi, modelin gerçek piyasadaki her yeni veri parçası için tahmin yaptığı zamandır
Çıkarım sıklığı strateji tasarımına bağlıdır ve karar penceresinin süresi çıkarım hızının üst sınırını belirler; çıkarım hızının üst sınırı ise modelin karmaşıklığını sınırlar.
...

En İyiler
Sıralama
Takip Listesi
