Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Krypto kopiloti musí být schopni rozumovat při pohybu trhů. To znamená tvrdší, produkčně uzemněné benchmarky.
CryptoAnalystBench pomáhá posouvat uvažování o open-source AI tím, že hodnotí dlouhé krypto odpovědi podle relevance, časové relevance, hloubky a konzistence 🧵 dat

2/ Tento benchmark je důležitý, protože uvažování se v rychle se měnících podmínkách rozpadá
Většina hodnocení kontroluje, zda model dokáže získat fakta. V kryptu uživatelé potřebují koherentní postoj, když se signály rozcházejí, časová okna se posouvají a zdroje nesouhlasí. Pokud tuto syntézu neměříte, posíláte kopiloty, kteří zní věrohodně, pak se odkloníte, protiřečí si sami sebe a matete rozhodnutí.
CryptoAnalystBench hodnotí dlouhé, analyticky stylizované odpovědi podle relevance, hloubky, časové relevance a konzistence dat, což týmům poskytuje opakovatelný základ pro iterační a regresní testování. Objevuje se také tam, kde se agenti v praxi porušují: zastaralé rámování, povrchní syntéza, vnitřní rozpory a příliš sebevědomá tvrzení.
CryptoAnalystBench je navržen tak, aby doplňoval sady pravdivosti na místě jako DMind a CryptoBench, s oddělenými kontrolami faktografie pro správnost na úrovni tvrzení.
3/ CryptoAnalystBench jsme vytvořili destilací produkčního provozu do kompaktní datové sady
Začali jsme z nedávné části dotazů Sentient Chat a odstranili jsme prompty, které byly buď příliš dlouhé na konzistentní vyhodnocení, nebo příliš krátké na to, aby odrážely skutečný záměr.
Zbytek jsme pak seskupili do přibližně 2 000 skupin záměrů, definovali 11 kategorií a AI označila každý dotaz, aby pokrytí zůstalo v souladu s reálnou poptávkou uživatelů.
Odtud jsme odstranili téměř duplicitní soubory v každé kategorii, ořízli "snadné" prompty, na které modely dokážou odpovědět pouze trénováním, a ručně sestavili reprezentativní finální snímek pro hodnocení.
4/ Naše volby návrhu datové sady určují, jaké poruchy můžete najít
Téměř duplikáty nafukují skóre, aniž by zlepšily pokrytí. Jednoduché prompty skryjí selhání nástrojů a syntézy.
CryptoAnalystBench jsme navrhli tak, aby udržoval rozmanitost, zachoval reálný podíl návštěvnosti a udržoval čas robustní, takže zachytává drift a regrese místo toho, aby odměňoval memorování.
5/ Vyhodnocovací smyčka je navržena pro reprodukovatelnou iteraci
Každou odpověď hodnotíme s LLM rozhodčím podle pevné rubriky a JSON pouze vydává výstupy, aniž by bylo odhaleno, který systém kterou odpověď vydal.
DeepSeek v3.1 jsme zvolili přes Fireworks po testování zkreslení, poté jsme kontrolovali varianci s vyváženou randomizací pořadí odpovědí a sdílenou konverzací s rozhodčím na každý dotaz, abychom snížili kalibrační drift.
Výstup je to, co vývojářské týmy potřebují iterovat: skóre podle dimenze, hodnocení dotazu a kategorie pro regresní testování a cílené opravy. Také to jasně zdůrazňuje omezení, totiž že vysoká kvalita analytika může stále skrývat halucinaované číselné údaje nebo špatně přiřazená tvrzení.
Dalšími kroky je udržet benchmark aktuální v rytmu a spojit ho s lokalizací chyb založenou na stopách a ověřením faktoaktivity s omezením důkazů.
64
Top
Hodnocení
Oblíbené
