Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Copilot kripto harus mampu bernalar di bawah pasar yang bergerak. Itu berarti tolok ukur yang lebih keras dan berbasis produksi.
CryptoAnalystBench membantu memajukan penalaran untuk AI sumber terbuka dengan menilai jawaban kripto bentuk panjang berdasarkan relevansi, relevansi temporal, kedalaman, dan konsistensi 🧵 data

2/ Tolok ukur ini penting karena penalaran pecah dalam kondisi yang berubah dengan cepat
Sebagian besar eval memeriksa apakah model dapat mengambil fakta. Dalam kripto, pengguna membutuhkan sikap yang koheren ketika sinyal bertentangan, jendela waktu bergeser, dan sumber tidak setuju. Jika Anda tidak mengukur sintesis itu, Anda mengirimkan copilot yang terdengar masuk akal, kemudian melayang, bertentangan dengan diri mereka sendiri, dan menyesatkan keputusan.
CryptoAnalystBench menilai jawaban panjang gaya analis tentang relevansi, kedalaman, relevansi temporal, dan konsistensi data, memberi tim dasar yang dapat diulang untuk pengujian iterasi dan regresi. Ini juga muncul di mana agen pecah dalam praktik: pembingkaian basi, sintesis dangkal, kontradiksi internal, dan klaim yang terlalu percaya diri.
CryptoAnalystBench dirancang untuk melengkapi rangkaian kebenaran dasar seperti DMind dan CryptoBench, dengan pemeriksaan faktualitas terpisah untuk kebenaran tingkat klaim.
3/ Kami membangun CryptoAnalystBench dengan menyaring lalu lintas produksi ke dalam kumpulan data yang ringkas
Kami mulai dari sepotong kueri Sentient Chat baru-baru ini dan menghapus perintah yang terlalu panjang untuk dievaluasi secara konsisten atau terlalu pendek untuk mencerminkan niat sebenarnya.
Kemudian kami mengelompokkan sisanya ke dalam sekitar 2.000 grup niat, menentukan 11 kategori, dan AI menandai setiap kueri sehingga cakupan tetap selaras dengan permintaan pengguna yang sebenarnya.
Dari sana, kami menghapus hampir duplikat dalam setiap kategori, memangkas petunjuk "mudah" yang dapat dijawab model dari pelatihan saja, dan menyusun cuplikan akhir yang representatif untuk evaluasi.
4/ Pilihan desain kumpulan data kami menentukan kegagalan apa yang dapat Anda temukan
Duplikat dekat meningkatkan skor tanpa meningkatkan cakupan. Petunjuk mudah menyembunyikan kegagalan alat dan sintesis.
Kami merancang CryptoAnalystBench untuk menjaga keragaman, mempertahankan proporsi lalu lintas nyata, dan tetap kuat sehingga menangkap penyimpangan dan regresi alih-alih mengingatkan hafalan.
5/ Loop evaluasi dibangun untuk iterasi yang dapat direproduksi
Kami menilai setiap jawaban dengan hakim LLM menggunakan rubrik tetap dan hanya keluaran JSON, tanpa mengungkapkan sistem mana yang menghasilkan respons mana.
Kami memilih DeepSeek v3.1 melalui Fireworks setelah pengujian bias, lalu mengontrol varians dengan pengacakan urutan respons seimbang dan percakapan hakim bersama per kueri untuk mengurangi penyimpangan kalibrasi.
Outputnya adalah apa yang perlu diulangi oleh tim pengembang: skor per dimensi, peringkat per kueri, dan irisan kategori untuk pengujian regresi dan perbaikan yang ditargetkan. Itu juga membuat batasan eksplisit, yaitu bahwa kualitas analis yang tinggi masih dapat menyembunyikan numerik halusinasi atau klaim yang salah diatribusikan.
Langkah selanjutnya adalah menjaga tolok ukur tetap segar pada irama dan memasangkannya dengan pelokalan kesalahan berbasis jejak ditambah pemeriksaan faktualitas terbatas bukti.
69
Teratas
Peringkat
Favorit
