Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje li um artigo de 2025 intitulado "Previsão de Tendências de Preços de Criptomoedas a Curto Prazo Usando Dados de Livro de Ordens", o autor também tem a conta X @Kev, todos podem dar uma olhada. A descoberta central do artigo: o pré-processamento de dados de alta frequência é mais importante do que a complexidade do modelo, ou seja, após uma boa limpeza de dados, o design manual de características + um modelo simples tem desempenho comparável, senão melhor, do que modelos profundos totalmente automáticos (redes neurais que aprendem características automaticamente). Essa descoberta é um consenso mainstream no setor financeiro tradicional, mas não é comum ver pesquisas nessa área no mercado de criptomoedas.
Os dados de pesquisa do autor são dados brutos do livro de ordens L2 da API pública da Bybit, datados de 30 de janeiro de 2025. Um snapshot a cada 100ms, com até 200 camadas de ordens de compra e venda por snapshot. O experimento principal usou 100.000 entradas (cerca de 166 minutos), e o experimento sequencial foi expandido para 1.000.000 entradas (cerca de 28 horas). Os dados estão disponíveis gratuitamente, portanto, a reprodutibilidade do artigo é boa.
O método de pesquisa dividiu os dados em três grupos: sem filtragem, filtragem SG e filtragem de Kalman, e então cada um foi inserido em 6 modelos, prevendo a direção do preço após 100ms / 500ms / 1s sob duas etiquetas: classificação binária (alta/baixa) e classificação ternária (alta/estável/baixa). No total, foram 3 (pré-processamento de dados) × 6 (6 grupos de modelos) × 2 (resultado da previsão como classificação binária ou ternária) × 3 (três janelas de previsão) = 108 grupos de experimentos.
Os modelos foram agrupados por complexidade da seguinte forma:
- Modelos simples (regressão logística e XGBoost): características projetadas manualmente (como diferença de volume de compra e venda, desequilíbrio de oferta e demanda) como entrada do modelo. São os mais rápidos, e conseguimos entender como o modelo faz julgamentos com base nas características, sabendo o porquê e o como.
- Modelos híbridos (CNN+CatBoost e CNN+XGBoost): não projetamos características manualmente, mas deixamos a rede neural aprender as características dos dados, e então essas características são inseridas em uma árvore de decisão. A vantagem é que pode descobrir combinações de características que não seriam pensadas manualmente, mas a desvantagem é que essas características são difíceis de explicar, sabendo o porquê, mas não o como.
- Modelos profundos (DeepLOB e sua versão simplificada): uma rede neural totalmente end-to-end, desde a extração de características (e a diferença em relação ao anterior é que desta vez pode extrair informações sequenciais como características) até o julgamento final, tudo feito automaticamente, sabendo o porquê, mas não o como.
O indicador de avaliação é a taxa de acerto da previsão (tecnicamente chamada de pontuação F1, que mede "quantas vezes você previu alta quando realmente houve alta" e "quantas vezes você pegou altas quando realmente houve altas", de 0 a 1, quanto maior, melhor). Também registra o tempo de treinamento. 80% do conjunto de dados para treinamento e 20% para teste, sem validação cruzada, pois dados temporais não são adequados para embaralhamento aleatório.
Ponto central 1: A qualidade dos dados é mais importante do que a escolha do modelo
Tomando como exemplo a previsão de 500ms com 40 camadas do livro de ordens em classificação ternária:
- Com o mesmo XGBoost, a taxa de acerto ao usar dados brutos foi de 0.45, e após a suavização SG subiu para 0.54, um aumento de cerca de 21%.
- Ao trocar o modelo por um mais complexo, o DeepLOB, a taxa de acerto nos dados brutos foi ainda menor (0.43). Mesmo com a suavização SG (0.52), ainda não superou o XGBoost+SG (0.54).
O efeito da melhoria da qualidade dos dados supera em muito o efeito do aumento da complexidade do modelo.
Por que a filtragem SG é tão eficaz?
Os dados brutos do livro de ordens são muito ruidosos, com preços e volumes de ordens flutuando drasticamente em milissegundos, e a indústria geralmente considera isso como "flashes" causados por ajustes rápidos de preços por market makers. A filtragem SG utiliza uma pequena janela que desliza sobre os dados, e a cada nova posição, ajusta uma curva suave dentro da janela, tomando o valor do ponto central da curva como resultado suavizado. Diferente da média móvel simples, ela não elimina os verdadeiros pontos de inflexão da tendência — porque se ajusta à forma dos dados com uma curva, em vez de simplesmente tirar a média. Uma linha de código no scipy pode chamar isso, com uma janela de 21 e um polinômio de terceiro grau sendo os parâmetros mais estáveis do artigo, podendo servir como ponto de partida para a pesquisa de todos.
2. A janela de decisão limita a complexidade do modelo
Aqui é preciso distinguir dois conceitos:
- O tempo de treinamento é o tempo de treinamento do modelo offline (uma única vez)
- O tempo de inferência é o tempo que o modelo leva para fazer uma previsão a cada nova entrada de dados em tempo real
A frequência de inferência depende do design da estratégia, e a duração da janela de decisão determina o limite superior da velocidade de inferência, que por sua vez limita a complexidade do modelo.
...

Top
Classificação
Favoritos
