Krypto kopiloti musí být schopni rozumovat při pohybu trhů. To znamená tvrdší, produkčně uzemněné benchmarky. CryptoAnalystBench pomáhá posouvat uvažování o open-source AI tím, že hodnotí dlouhé krypto odpovědi podle relevance, časové relevance, hloubky a konzistence 🧵 dat
2/ Tento benchmark je důležitý, protože uvažování se v rychle se měnících podmínkách rozpadá Většina hodnocení kontroluje, zda model dokáže získat fakta. V kryptu uživatelé potřebují koherentní postoj, když se signály rozcházejí, časová okna se posouvají a zdroje nesouhlasí. Pokud tuto syntézu neměříte, posíláte kopiloty, kteří zní věrohodně, pak se odkloníte, protiřečí si sami sebe a matete rozhodnutí. CryptoAnalystBench hodnotí dlouhé, analyticky stylizované odpovědi podle relevance, hloubky, časové relevance a konzistence dat, což týmům poskytuje opakovatelný základ pro iterační a regresní testování. Objevuje se také tam, kde se agenti v praxi porušují: zastaralé rámování, povrchní syntéza, vnitřní rozpory a příliš sebevědomá tvrzení. CryptoAnalystBench je navržen tak, aby doplňoval sady pravdivosti na místě jako DMind a CryptoBench, s oddělenými kontrolami faktografie pro správnost na úrovni tvrzení.
3/ CryptoAnalystBench jsme vytvořili destilací produkčního provozu do kompaktní datové sady Začali jsme z nedávné části dotazů Sentient Chat a odstranili jsme prompty, které byly buď příliš dlouhé na konzistentní vyhodnocení, nebo příliš krátké na to, aby odrážely skutečný záměr. Zbytek jsme pak seskupili do přibližně 2 000 skupin záměrů, definovali 11 kategorií a AI označila každý dotaz, aby pokrytí zůstalo v souladu s reálnou poptávkou uživatelů. Odtud jsme odstranili téměř duplicitní soubory v každé kategorii, ořízli "snadné" prompty, na které modely dokážou odpovědět pouze trénováním, a ručně sestavili reprezentativní finální snímek pro hodnocení.
4/ Naše volby návrhu datové sady určují, jaké poruchy můžete najít Téměř duplikáty nafukují skóre, aniž by zlepšily pokrytí. Jednoduché prompty skryjí selhání nástrojů a syntézy. CryptoAnalystBench jsme navrhli tak, aby udržoval rozmanitost, zachoval reálný podíl návštěvnosti a udržoval čas robustní, takže zachytává drift a regrese místo toho, aby odměňoval memorování.
5/ Vyhodnocovací smyčka je navržena pro reprodukovatelnou iteraci Každou odpověď hodnotíme s LLM rozhodčím podle pevné rubriky a JSON pouze vydává výstupy, aniž by bylo odhaleno, který systém kterou odpověď vydal. DeepSeek v3.1 jsme zvolili přes Fireworks po testování zkreslení, poté jsme kontrolovali varianci s vyváženou randomizací pořadí odpovědí a sdílenou konverzací s rozhodčím na každý dotaz, abychom snížili kalibrační drift. Výstup je to, co vývojářské týmy potřebují iterovat: skóre podle dimenze, hodnocení dotazu a kategorie pro regresní testování a cílené opravy. Také to jasně zdůrazňuje omezení, totiž že vysoká kvalita analytika může stále skrývat halucinaované číselné údaje nebo špatně přiřazená tvrzení. Dalšími kroky je udržet benchmark aktuální v rytmu a spojit ho s lokalizací chyb založenou na stopách a ověřením faktoaktivity s omezením důkazů.
64