Сьогодні я прочитав статтю 2025 року «Прогнозування короткострокових тенденцій цін криптовалют за допомогою даних книги замовлень», і автор також має @Kev акаунта X, тож ви можете подивитися. Основний висновок цієї статті полягає в тому, що високочастотна попередня обробка даних має пріоритет над складністю моделі, тобто після очищення даних ручне проєктування ознак + прості моделі є порівнянним або навіть кращим за повністю автоматичні (функції автоматичного навчання нейронних мереж) глибокі моделі. Цей висновок є основним консенсусом у традиційній фінансовій сфері, але дослідження крипторинку трапляються рідко. Дослідницькі дані автора — це оригінальні дані L2 книги замовлень з публічного інтерфейсу Bybit станом на 30 січня 2025 року. Один знімок кожні 100 мс, максимум 200 шарів замовлень на знімок. Основний експеримент зайняв 100 000 деталей (близько 166 хвилин), а експеримент із послідовністю було розширено до 1 мільйона частин (близько 28 годин). Дані вільно доступні, тому відтворюваність статті є доброю. Метод дослідження полягає у поділі даних на три групи: нефільтровані, SG-фільтровані та відфільтровані за Калманом, а потім окремо введені 6 моделей і прогнозування напрямку ціни після 100 мс / 500мс / 1 за позначеннями бінарної класифікації (підйом/падіння) та трьох класифікацій (зростання/пласування/падіння) відповідно. Всього 3 (попередня обробка даних), × 6 (6 наборів моделей), ×2 (прогнозування бінарних або потрійних результатів класифікації), × 3 (три вікна часу прогнозування) = 108 наборів експериментів. Моделі групуються за складністю наступним чином: - Прості моделі (логістична регресія та XGBoost): ручне проектування функцій (наприклад, різниці обсягів ставок і пропозиції, дисбаланс попиту і пропозиції) як вхідні дані моделі. Найшвидше, і ми можемо зрозуміти, як модель робить висновки на основі своїх ознак, і ми знаємо, чому це так. - Гібридні моделі (CNN+CatBoost та CNN+XGBoost): Замість ручного проектування ознак дозвольте нейронній мережі самостійно вивчати ознаки даних, а потім вводити їх у дерево рішень. Перевага в тому, що можна знайти комбінації ознак, які є несподіваними штучно, але недолік у тому, що ці ознаки важко пояснити, і ми не знаємо, чому вони відомі. - Глибока модель (DeepLOB та її спрощена версія): повністю наскрізна нейронна мережа, яка автоматично завершує все — від вилучення ознак (різниця в тому, що цього разу може витягувати інформацію про послідовності як ознаку) до остаточного судження. Метрика оцінки — це рівень точності прогнозування (технічно називається F1 балом, який вимірює «скільки разів ви справді піднялися, коли казали, що він справді зросло» і «скільки разів ви помітили це, коли він справді піднявся», 0 до 1, чим вище, тим краще). Зафіксуйте час тренування одночасно. 80% навчального набору і 20% тестового набору без перехресної валідації, оскільки дані таймінгу не підходять для випадкового тасування. Основний пункт 1: Якість даних важливіша за вибір моделі Візьмемо, наприклад, передбачення трикатегорійної книги замовлень 500 мс і 40 шарів: - Той самий XGBoost має точність прогнозування 0,45 при введенні сирих даних, але після згладжування SG вона зростає до 0,54, що приблизно на 21%. - Заміна моделі на більш складний DeepLOB, який має нижчий рівень сирих даних (0,43). Хоча DeepLOB робить SG-згладжування (0.52), він все одно гірший за XGBoost+SG (0.54). Покращення якості даних значно переважає покращення складності моделі. Чому фільтрація SG така ефективна? Сирі дані з книги замовлень дуже нечіткі, а ціна та обсяг очікуваних ордерів різко зростають на рівні мілісекунди, що індустрія зазвичай вважає «мерехтінням», спричиненим швидким коригуванням котирувань маркет-мейкерів. SG-фільтрація полягає в тому, щоб взяти невелике вікно і перемістити на дані, підібрати гладку криву у вікно в кожній позиції і взяти значення центральної точки кривої як результат згладжування. На відміну від простої ковзної середньої, вона не зношує реальну точку перелому тренду — оскільки використовує криві для підходу до форми даних, а не для приблизно усереднення. Можна викликати рядок коду в scipy, вікно 21, а поліноми третього порядку — це найстабільніші параметри у статті, які можна використати як відправну точку для вашого дослідження. 2. Вікно прийняття рішень обмежує складність моделі Тут слід виділити два поняття: - Час навчання — це офлайн-час навчання моделі (одноразове) - Час висновку — це час, коли модель робить прогнози для кожного нового фрагмента даних на реальному ринку Частота висновку залежить від дизайну стратегії, а тривалість вікна прийняття рішення визначає верхню межу швидкості висновку, а верхня межа швидкості виведення обмежує складність моделі. ...