Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kripto yardımcı pilotları, piyasaların değiştiği koşullarda mantık yürütme yapabilmelidir. Bu da daha zor, üretime dayalı kriterler anlamına geliyor.
CryptoAnalystBench, açık kaynaklı yapay zeka için uzun biçimli kripto cevaplarını alaka düzeyi, zamansal önemi, derinlik ve veri tutarlılığı 🧵 açısından dereceleyerek ilerletmeye yardımcı olur

2/ Bu kıyaslama önemlidir çünkü akıl yürütme hızlı değişen koşullarda bozulur
Çoğu değerlendirme, bir modelin gerçekleri getirip getiremeyeceğini kontrol eder. Kriptoda, sinyaller çatıştığında, zaman aralığı kaydığında ve kaynaklar anlaşmazlık yarattığında kullanıcılar tutarlı bir duruşa ihtiyaç duyar. Eğer bu sentezi ölçmezseniz, makul görünen yardımcı pilotlar gönderirsiniz, sonra sürüklenir, kendilerini çeliştirir ve kararları yanıltırsınız.
CryptoAnalystBench, alaka düzeyi, derinlik, zamansal alaka ve veri tutarlılığı konularında uzun biçimli, analist tarzı cevaplar puanlar; ekiplere yineleme ve regresyon testi için tekrarlanabilir bir temel sağlar. Ayrıca uygulamada ajanların kırıldığı noktalar da ortaya çıkar: bayat çerçeveleme, yüzeysel sentez, iç çelişkiler ve aşırı kendine güvenen iddialar.
CryptoAnalystBench, DMind ve CryptoBench gibi gerçek paketlerini tamamlamak üzere tasarlanmıştır; iddia seviyesi doğruluğu için ayrı gerçeklik kontrolleri sunar.
3/ CryptoAnalystBench'i üretim trafiğini kompakt bir veri setine damıtarak oluşturduk
Yakın zamanda yapılan Sentient Chat sorularından başladık ve ya tutarlı değerlendirmek için çok uzun ya da gerçek niyeti yansıtamayacak kadar kısa olan istemleri kaldırdık.
Sonra kalanları yaklaşık 2.000 niyet grubuna kitledik, 11 kategori tanımladık ve yapay zeka her sorguyu etiketledi, böylece kapsam gerçek kullanıcı talebiyle uyumlu kalsın.
Buradan sonra, her kategoride neredeyse tekrarları kaldırdık, modellerin yalnızca eğitimle yanıtlayabileceği "kolay" promptları kırptık ve değerlendirme için temsilci bir nihai anlık fotoğrafı elle oluşturduk.
4/ Veri seti tasarım seçimlerimiz, hangi hataları bulabileceğinizi belirler
Neredeyse tekrarlar skorları şişirir ama kapsamayı iyileştirmez. Kolay istekler araç ve sentez hatalarını gizler.
CryptoAnalystBench'i çeşitliliği korumak, gerçek trafik oranlarını korumak ve zaman açısından dayanıklı kalması için tasarladık; böylece ezberleme yerine kayma ve regresyonları yakalayabilir.
5/ Değerlendirme döngüsü, tekrarlanabilir yineleme için oluşturulmuştur
Her cevabı, sabit bir rubrik kullanarak bir LLM hakimi ile puanlıyoruz ve JSON sadece çıktı veriyor, hangi sistemin hangi yanıtı verdiği açıklanmıyor.
Önyargı testinden sonra Fireworks üzerinden DeepSeek v3.1'i seçtik, ardından dengeli yanıt sırası rastgeleleştirmesi ve sorgu başına ortak yargıç konuşması ile kontrollü varyans yaptık, böylece kalibrasyon kaymasını azalttık.
Çıktı, geliştirici ekiplerin yinelemesi gereken şey: boyut başına puanlar, sorgu başına sıralamalar ve regresyon testi ile hedefli düzeltmeler için kategori dilimleri. Ayrıca sınırlamayı açıkça belirtir; yani yüksek analist kalitesi halüsinasyon yapmış sayısal veya yanlış atfedilen iddiaları hâlâ gizleyebilir.
Sonraki adımlar, kıyaslamayı bir kadenste taze tutmak ve bunu iz tabanlı hata yerelleştirme ile kanıt sınırlı gerçeklik kontrolleriyle eşleştirmektir.
61
En İyiler
Sıralama
Takip Listesi
