Cripto copilote trebuie să fie capabile să raționeze în condiții de schimbare a piețelor. Asta înseamnă repere mai dificile, bazate pe producție. CryptoAnalystBench ajută la avansarea raționamentului pentru inteligența artificială open-source prin evaluarea răspunsurilor criptografice de lungă durată după relevanță, relevanță temporală, profunzime și consistență 🧵 a datelor
2/ Acest reper este important deoarece raționamentul se întrerupe în condiții care se schimbă rapid Majoritatea evaluărilor verifică dacă un model poate prelua fapte. În cripto, utilizatorii au nevoie de o poziție coerentă atunci când semnalele intră în conflict, ferestrele de timp se schimbă și sursele nu sunt de acord. Dacă nu măsori acea sinteză, trimiți coplote care par plauzibile, apoi derivezi, se contrazic și induci decizii în eroare. CryptoAnalystBench evaluează răspunsuri lungi, în stil analist, pe baza relevanței, profunzimii, relevanței temporale și consistenței datelor, oferind echipelor o bază repetabilă pentru testarea iterației și regresiei. De asemenea, apare acolo unde agenții cedează în practică: încadrare învechită, sinteză superficială, contradicții interne și afirmații prea încrezătoare. CryptoAnalystBench este conceput pentru a completa suitele de adevăr la teren precum DMind și CryptoBench, cu verificări separate ale factualității pentru corectitudinea nivelului afirmațiilor.
3/ Am construit CryptoAnalystBench distilând traficul de producție într-un set de date compact Am pornit de la o porțiune recentă de interogări Sentient Chat și am eliminat prompturile care erau fie prea lungi pentru a fi evaluate constant, fie prea scurte pentru a reflecta intenția reală. Apoi am grupat restul în aproximativ 2.000 de grupuri de intenții, am definit 11 categorii și AI a etichetat fiecare interogare astfel încât acoperirea să rămână aliniată cererii reale a utilizatorilor. De acolo, am eliminat aproape duplicatele din fiecare categorie, am tăiat prompturile "ușoare" la care modelele pot răspunde doar prin antrenament și am selectat manual o imagine finală reprezentativă pentru evaluare.
4/ Alegerile noastre de design ale setului de date determină ce eșecuri poți găsi Aproape duplicatele umflă scorurile fără a îmbunătăți acoperirea. Prompturile simple ascund eșecurile uneltelor și sintezei. Am proiectat CryptoAnalystBench pentru a menține diversitatea, a păstra proporțiile reale de trafic și a menține timpul robust, astfel încât să prindă deriva și regresiile în loc să răsplătească memorarea.
5/ Bucla de evaluare este construită pentru iterații reproductibile Evaluăm fiecare răspuns cu un judecător LLM folosind o rubrică fixă, iar JSON oferă doar rezultate, fără a dezvălui ce sistem a produs ce răspuns. Am ales DeepSeek v3.1 prin Fireworks după testarea bias, apoi am controlat varianța prin randomizarea echilibrată a ordinii răspunsurilor și o conversație comună a judecătorilor pentru fiecare interogare pentru a reduce deriva calibrării. Rezultatul este ceea ce echipele de dezvoltare au nevoie pentru a itera: scoruri pe dimensiune, pe ranguri de interogare și segmente de categorie pentru testarea regresiei și corecturi țintite. De asemenea, face limitarea explicită, și anume că o calitate ridicată a analiștilor poate totuși ascunde numere halucinate sau afirmații atribuite greșit. Pașii următori sunt să menții benchmark-ul proaspăt pe o cadență și să-l asociezi cu localizarea erorilor bazate pe urme, plus verificări de factualitate limitate cu dovezi.
73