Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I copiloti crypto devono essere in grado di ragionare in mercati in movimento. Ciò significa standard più rigorosi e basati sulla produzione.
CryptoAnalystBench aiuta a migliorare il ragionamento per l'AI open-source valutando le risposte lunghe nel settore crypto in base alla rilevanza, alla rilevanza temporale, alla profondità e alla coerenza dei dati 🧵

2/ Questo benchmark è importante perché il ragionamento si interrompe in condizioni di rapido cambiamento.
La maggior parte delle valutazioni verifica se un modello può recuperare fatti. Nel settore delle criptovalute, gli utenti hanno bisogno di una posizione coerente quando i segnali sono in conflitto, le finestre temporali cambiano e le fonti non sono d'accordo. Se non misuri quella sintesi, fornisci copiloti che sembrano plausibili, poi si allontanano, si contraddicono e fuorviano le decisioni.
CryptoAnalystBench valuta risposte in forma lunga, in stile analista, sulla pertinenza, la profondità, la pertinenza temporale e la coerenza dei dati, fornendo ai team una base ripetibile per iterazione e test di regressione. Inoltre, evidenzia dove gli agenti si rompono nella pratica: inquadramenti obsoleti, sintesi superficiali, contraddizioni interne e affermazioni eccessivamente sicure.
CryptoAnalystBench è progettato per completare suite di verità di base come DMind e CryptoBench, con controlli di factualità separati per la correttezza a livello di affermazione.
3/ Abbiamo costruito CryptoAnalystBench distillando il traffico di produzione in un dataset compatto.
Siamo partiti da un recente campione di query di Sentient Chat e abbiamo rimosso i prompt che erano troppo lunghi per essere valutati in modo coerente o troppo brevi per riflettere l'intento reale.
Poi abbiamo raggruppato il resto in circa 2.000 gruppi di intenti, definito 11 categorie e taggato ogni query con AI in modo che la copertura rimanga allineata con la domanda reale degli utenti.
Da lì, abbiamo rimosso i quasi duplicati all'interno di ciascuna categoria, potato i prompt "facili" a cui i modelli possono rispondere solo con l'addestramento e curato a mano un'istantanea finale rappresentativa per la valutazione.
4/ Le scelte di design del nostro dataset determinano quali errori puoi trovare
I duplicati vicini gonfiano i punteggi senza migliorare la copertura. I prompt facili nascondono errori di strumento e di sintesi.
Abbiamo progettato CryptoAnalystBench per mantenere la diversità, preservare le proporzioni del traffico reale e rimanere robusto nel tempo, in modo da catturare drift e regressioni invece di premiare la memorizzazione.
5/ Il ciclo di valutazione è costruito per iterazioni riproducibili
Valutiamo ogni risposta con un giudice LLM utilizzando un rubric fisso e solo output JSON, senza rivelare quale sistema ha prodotto quale risposta.
Abbiamo scelto DeepSeek v3.1 tramite Fireworks dopo aver testato i bias, quindi abbiamo controllato la varianza con la randomizzazione dell'ordine delle risposte bilanciato e una conversazione di giudice condivisa per query per ridurre la deriva di calibrazione.
L'output è ciò di cui i team di sviluppo hanno bisogno per iterare: punteggi per dimensione, classifiche per query e suddivisioni per categoria per test di regressione e correzioni mirate. Rende anche esplicita la limitazione, ovvero che un'alta qualità analitica può comunque nascondere numeri allucinati o affermazioni attribuite erroneamente.
I prossimi passi sono mantenere il benchmark aggiornato con una cadenza e abbinarlo alla localizzazione degli errori basata su tracce più controlli di factualità vincolati da prove.
62
Principali
Ranking
Preferiti
