Свет на Cruncher #4 – Конкурс структурных разрывов ADIA Lab Сегодня мы выделяем Джулиана Мукая, количественного аналитика в M&G Investments, за его решение с наилучшей производительностью в конкурсе структурных разрывов ADIA Lab 2025 на сумму $100K, который проводился на Crunch.
Задача: проверка структурного разрыва. Дана временная серия и предложенная точка изменения, предсказать вероятность (0–1) того, что истинный структурный разрыв произошел там – проблема с приложениями в финансах, климате, здравоохранении, макроэкономике и не только.
В центре подхода лежит разнообразие признаков: Джулиан создает семейства признаков, которые сравнивают сегменты до и после разрыва по: - распределениям и стационарности - структуре волатильности и дисперсии - сжатию и сложности - спектральному содержимому - геометрии пути и экстремумам
Статистические тесты и информационно-теоретические характеристики Классические инструменты, такие как ADF, KS, Cramér–von Mises, дивергенции и энтропии, количественно оценивают изменения распределения и стационарности на границе. Они фиксируют самый прямой сигнал: "Изменилась ли основная закон движения?"
Преобразования дисперсии и волатильности На z-нормализованных доходностях он накладывает: - волатильность EWMA - скользящие стандартные отклонения - стандартизированные остатки (размер шока по сравнению с локальным σ) - окна дисперсии в стиле MOSUM Функции отслеживают коэффициент вариации, гладкость, кластеризацию волатильности и структуру дисперсии, зависящую от режима, вокруг кандидата на разрыв.
Сжатие и геометрия CuSum - Признаки на основе Lempel–Ziv и zlib измеряют, насколько последовательность сжимаема / структурирована до и после разбиения. - Признаки на основе CuSum (форма локтя, резкость, расстояния Вассерштейна по остаткам) подчеркивают изменения среднего уровня и локальные "локти" на границе. Вместе они выявляют тонкие изменения в сложности и динамике среднего.
Спектральные, SSA, ROCKET и характеристики пути - Спектральные и SSA характеристики отслеживают, как энергия перераспределяется по частотам и как изменяются доминирующие режимы. - Детерминированные преобразования ROCKET действуют как легковесные свёрточные характеристики, чтобы уловить микроструктуру, не захваченную низкоуровневыми статистиками. - Характеристики пути и экстремумы (падения, расстояния до пиков/впадин) обобщают геометрию пути, зависящую от режима.
Одно из самых поразительных открытий: "магическая функция" – глобальный коэффициент вариации. Сам по себе он обеспечивал значительное увеличение AUC и, что более важно, действовал как ворота: крошечные интервалы этой функции определяют различные режимы данных с очень разными частотами сбоев.
Анализ частичной зависимости и ICE показал, что модель использует эту характеристику только вблизи узких порогов. Пересечение этих порогов направляет образцы в разные листья, где важны другие характеристики, эффективно разделяя набор данных на режимы (включая диапазон "легких негативов" с очень низким положительным уровнем). Это взаимодействие привело к значительному увеличению общего AUC.
Юлиан также исследовал несколько архитектур глубокого обучения: - Сиамские / эмбеддинговые модели для пред/пост сегментов - CNN, сосредоточенные на границах окон - Гибридные варианты LSTM–GARCH - Пользовательские головы, смешивающие глобальные статистики, границы окон и пред/пост эмбеддинги Большинство достигло плато на уровне 65–75% AUC, несмотря на значительную настройку.
Почему деревья победили здесь? Ансамбли деревьев могли использовать очень локальные, низкоразмерные сигналы, такие как узкие пороги кросс-валидации, в то время как глубокие модели, как правило, сглаживали их через нормализацию и обучение представлениям. Учитывая временные рамки соревнования, инженерия признаков + GBDT обеспечили наилучший компромисс между сложностью, интерпретируемостью и производительностью.
Огромное спасибо Юлиану Мукаю за то, что поделился таким подробным разбором своего подхода, а также ADIA Lab и всем участникам Crunchers за продвижение границ обнаружения структурных разрывов. Скоро будут новые акценты на Crunchers.
3,72K