اليوم قرأت ورقة بحثية لعام 2025 بعنوان "التنبؤ باتجاهات أسعار العملات الرقمية قصيرة الأجل باستخدام بيانات دفاتر الطلبات"، والمؤلف لديه أيضا حساب X @Kev، لذا يمكنك الذهاب والمشاهدة. النتيجة الأساسية لهذه الورقة هي أن المعالجة المسبقة للبيانات عالية التردد تأخذ الأولوية على تعقيد النموذج، أي أنه بعد تنظيف البيانات، فإن تصميم الميزات يدويا + نماذج بسيطة يشبه أو حتى أفضل من النماذج العميقة التلقائية بالكامل (ميزات التعلم التلقائي للشبكات العصبية). هذا الاكتشاف هو الإجماع السائد في المجال المالي التقليدي، لكنه نادر إجراء أبحاث حول سوق العملات الرقمية. بيانات بحث المؤلف هي بيانات كتاب الأوامر الأصلي L2 من واجهة بايبيت العامة في 30 يناير 2025. لقطة واحدة كل 100 مللي ثانية، مع حد أقصى 200 طبقة من الأوامر لكل لقطة. استغرق التجربة الرئيسية 100,000 قطعة (حوالي 166 دقيقة)، وتم توسيع تجربة التسلسل إلى مليون قطعة (حوالي 28 ساعة). البيانات متاحة مجانا، لذا فإن قابلية تكرار الورقة جيدة. تتمثل طريقة البحث في تقسيم البيانات إلى ثلاث مجموعات: غير مفلترة، مفلترة ب SG، ومرشحة كالمان، ثم إدخال 6 نماذج بشكل منفصل، والتنبؤ باتجاه السعر بعد 100 مللي ثانية / 500 مللي ثانية / 1 تحت تصنيفات التصنيف الثنائي (ارتفاع/انخفاض) وثلاثة تصنيفات (ارتفاع/مستوى/هبوط)، على التوالي. بالمجمل، 3 (معالجة البيانات المسبقة)، × 6 (6 مجموعات من النماذج)، ×2 (التنبؤ بنتائج التصنيف الثنائي أو الثلاثي)، × 3 (ثلاث نوافذ توقع) = 108 مجموعات من التجارب. يتم تجميع النماذج حسب التعقيد كما يلي: - نماذج بسيطة (الانحدار اللوجستي وXGBoost): يصمم يدويا الميزات (مثل فروق حجم العرض والطلب، اختلالات العرض والطلب) كمدخلات للنموذج. الأسرع، ويمكننا أن نفهم كيف يتخذ النموذج الأحكام بناء على ميزاته، ونعرف سبب ذلك. - النماذج الهجينة (CNN+CatBoost و CNN+XGBoost): بدلا من تصميم الميزات يدويا، دع الشبكة العصبية تتعلم ميزات البيانات بنفسها ثم تدمج تلك الميزات في شجرة القرار. الميزة هي أنه من الممكن إيجاد تركيبات من الميزات غير المتوقعة بشكل مصطنع، لكن العيب هو أن هذه الميزات يصعب شرحها، ولا نعرف لماذا هي معروفة. - النموذج العميق (DeepLOB ونسخته المبسطة): شبكة عصبية شاملة بالكامل تكمل تلقائيا كل شيء من استخراج الميزات (الفرق هو أنها تستطيع استخراج معلومات التسلسل كميزة هذه المرة) إلى الحكم النهائي. مقياس التقييم هو معدل دقة التنبؤ (ويسمى تقنيا درجة F1، والذي يقيس "كم مرة ارتفعت فعلا عندما قلت إنه ارتفع فعلا" و"كم مرة لاحظته عندما ارتفع فعلا"، 0 إلى 1، وكلما ارتفع كان أفضل). سجل وقت التدريب في نفس الوقت. 80٪ من مجموعة التدريب و20٪ من مجموعة الاختبار، دون التحقق المتبادل، لأن بيانات التوقيت غير مناسبة للخلط العشوائي. النقطة الأساسية 1: جودة البيانات أهم من اختيار النموذج خذ توقع دفتر أوامر مكون من ثلاث فئات بطول 500 مللي ثانية و40 طبقة كمثال: - نفس XGBoost لديه دقة تنبؤ تبلغ 0.45 عند إدخال البيانات الخام، لكنها ترتفع إلى 0.54 بعد تنعيم SG، أي زيادة بحوالي 21٪. - استبدال النموذج ب DeepLOB أكثر تعقيدا، والذي يكون أقل في البيانات الخام (0.43). على الرغم من أن DeepLOB يقوم بتعويم SG (0.52)، إلا أنه لا يزال ليس بجودة XGBoost+SG (0.54). التحسن في جودة البيانات يفوق بكثير تحسن تعقيد النموذج. لماذا يعتبر تصفية SG فعالة جدا؟ بيانات دفتر الأوامر الخام غير واضحة جدا، ويقفز سعر وحجم الأوامر المعلقة بشكل عنيف عند مستوى الميلي ثانية، وهو ما تعتقد الصناعة عادة أنه "وميض" ناتج عن قيام صانعي السوق بتعديل سريع للعروض. تصفية SG هي أخذ نافذة صغيرة وتمرير البيانات على الوضع، وتركيب منحنى أملس في النافذة عند كل موضع، وأخذ قيمة نقطة مركز المنحنى كنتيجة تنعيم. على عكس المتوسط المتحرك البسيط، لا يضعف نقطة التحول الحقيقية - لأنه يستخدم المنحنيات لتناسب شكل البيانات، وليس المتوسط التقريبي. يمكن استدعاء سطر من الكود في scipy إلى نافذة 21، وتعد كثيرات الحدود من الدرجة الثالثة أكثر المعاملات استقرارا في الورقة، والتي يمكن استخدامها كنقطة انطلاق لبحثك. 2. نافذة القرار تحد من تعقيد النموذج يجب التمييز بين مفهومين هنا: - وقت التدريب هو وقت تدريب نموذج غير متصل (مرة واحدة) - وقت الاستدلال هو الوقت الذي يقوم فيه النموذج بإجراء توقعات لكل قطعة بيانات جديدة في السوق الحقيقية يعتمد تردد الاستدلال على تصميم الاستراتيجية، ومدة نافذة القرار تحدد الحد الأعلى لسرعة الاستدلال، والحد الأعلى لسرعة الاستدلال يقيد تعقيد النموذج. ...