Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los copilotos de criptomonedas necesitan ser capaces de razonar en mercados en movimiento. Eso significa estándares más rigurosos y basados en la producción.
CryptoAnalystBench ayuda a avanzar en el razonamiento para la IA de código abierto al calificar respuestas largas sobre criptomonedas en relevancia, relevancia temporal, profundidad y consistencia de datos 🧵

2/ Este punto de referencia es importante porque el razonamiento se rompe en condiciones de cambio rápido.
La mayoría de las evaluaciones verifican si un modelo puede obtener hechos. En crypto, los usuarios necesitan una postura coherente cuando las señales están en conflicto, las ventanas de tiempo cambian y las fuentes no están de acuerdo. Si no mides esa síntesis, envías copilotos que suenan plausibles, luego se desvían, se contradicen y desinforman las decisiones.
CryptoAnalystBench puntúa respuestas en formato largo, estilo analista, sobre relevancia, profundidad, relevancia temporal y consistencia de datos, proporcionando a los equipos una base repetible para la iteración y las pruebas de regresión. También revela dónde los agentes fallan en la práctica: enmarcaciones obsoletas, síntesis superficiales, contradicciones internas y afirmaciones excesivamente confiadas.
CryptoAnalystBench está diseñado para complementar suites de verdad fundamental como DMind y CryptoBench, con verificaciones de factualidad separadas para la corrección a nivel de afirmaciones.
3/ Construimos CryptoAnalystBench destilando el tráfico de producción en un conjunto de datos compacto.
Comenzamos con una muestra reciente de consultas de Sentient Chat y eliminamos los mensajes que eran demasiado largos para evaluar de manera consistente o demasiado cortos para reflejar la intención real.
Luego agrupamos el resto en aproximadamente 2,000 grupos de intención, definimos 11 categorías y etiquetamos cada consulta con AI para que la cobertura se mantenga alineada con la demanda real de los usuarios.
A partir de ahí, eliminamos duplicados cercanos dentro de cada categoría, eliminamos mensajes "fáciles" que los modelos pueden responder solo con el entrenamiento y curamos a mano una instantánea final representativa para la evaluación.
4/ Nuestras elecciones de diseño del conjunto de datos determinan qué fallos puedes encontrar
Los duplicados cercanos inflan las puntuaciones sin mejorar la cobertura. Los prompts fáciles ocultan fallos de herramientas y síntesis.
Diseñamos CryptoAnalystBench para mantener la diversidad, preservar las proporciones del tráfico real y ser robusto en el tiempo, de modo que detecte desviaciones y regresiones en lugar de recompensar la memorización.
5/ El bucle de evaluación está diseñado para una iteración reproducible
Evaluamos cada respuesta con un juez LLM utilizando un rubro fijo y solo salidas en JSON, sin revelar qué sistema produjo qué respuesta.
Elegimos DeepSeek v3.1 a través de Fireworks después de pruebas de sesgo, luego controlamos la variación con una aleatorización equilibrada del orden de las respuestas y una conversación de juez compartida por consulta para reducir la deriva de calibración.
La salida es lo que los equipos de desarrollo necesitan para iterar: puntuaciones por dimensión, rangos por consulta y segmentos de categoría para pruebas de regresión y correcciones específicas. También hace explícita la limitación, es decir, que una alta calidad analítica aún puede ocultar números alucinados o afirmaciones mal atribuidas.
Los próximos pasos son mantener el estándar actualizado en una cadencia y emparejarlo con localización de errores basada en trazas más verificaciones de factualidad limitadas por evidencia.
71
Parte superior
Clasificación
Favoritos
