Os copilotos de criptomoeda precisam ser capazes de raciocinar em mercados em movimento. Isso significa benchmarks mais rigorosos e fundamentados na produção. O CryptoAnalystBench ajuda a avançar o raciocínio para IA de código aberto, avaliando respostas longas sobre criptomoeda com base na relevância, relevância temporal, profundidade e consistência dos dados 🧵
2/ Este benchmark é importante porque o raciocínio falha em condições de rápida mudança. A maioria das avaliações verifica se um modelo consegue buscar fatos. No crypto, os usuários precisam de uma postura coerente quando os sinais estão em conflito, as janelas de tempo mudam e as fontes discordam. Se você não medir essa síntese, você entrega copilotos que parecem plausíveis, mas depois se desviam, se contradizem e enganam decisões. O CryptoAnalystBench pontua respostas em formato longo, estilo analista, com base na relevância, profundidade, relevância temporal e consistência de dados, fornecendo às equipes uma linha de base repetível para iteração e testes de regressão. Também revela onde os agentes falham na prática: enquadramento desatualizado, síntese superficial, contradições internas e afirmações excessivamente confiantes. O CryptoAnalystBench foi projetado para complementar suítes de verdade fundamental como DMind e CryptoBench, com verificações de factualidade separadas para a correção em nível de afirmação.
3/ Construímos o CryptoAnalystBench destilando o tráfego de produção em um conjunto de dados compacto. Começámos a partir de uma fatia recente de consultas do Sentient Chat e removemos os prompts que eram demasiado longos para avaliar de forma consistente ou demasiado curtos para refletir a intenção real. Depois, agrupámos o restante em cerca de 2.000 grupos de intenção, definimos 11 categorias e etiquetámos cada consulta com AI para que a cobertura se mantenha alinhada com a demanda real dos utilizadores. A partir daí, removemos duplicados próximos dentro de cada categoria, eliminámos prompts "fáceis" que os modelos podem responder apenas com o treinamento e curamos manualmente uma amostra final representativa para avaliação.
4/ As escolhas de design do nosso conjunto de dados determinam quais falhas você pode encontrar Dúplicatas próximas inflacionam as pontuações sem melhorar a cobertura. Prompts fáceis escondem falhas de ferramenta e síntese. Projetamos o CryptoAnalystBench para manter a diversidade, preservar as proporções de tráfego real e ser robusto ao tempo, de modo que capture desvios e regressões em vez de recompensar a memorização.
5/ O ciclo de avaliação é construído para iteração reprodutível Pontuamos cada resposta com um juiz LLM usando um rubrica fixa e saídas apenas em JSON, sem revelar qual sistema produziu qual resposta. Escolhemos o DeepSeek v3.1 via Fireworks após testes de viés, depois controlamos a variância com randomização da ordem de resposta balanceada e uma conversa de juiz compartilhada por consulta para reduzir a deriva de calibração. A saída é o que as equipes de desenvolvimento precisam para iterar: pontuações por dimensão, classificações por consulta e fatias de categoria para testes de regressão e correções direcionadas. Também torna a limitação explícita, ou seja, que uma alta qualidade de analista ainda pode ocultar numéricos alucinatórios ou reivindicações mal atribuídas. Os próximos passos são manter o benchmark atualizado em uma cadência e emparelhá-lo com localização de erros baseada em rastreamento, além de verificações de factualidade limitadas por evidências.
68