Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Faydalı derin araştırma ajanları oluşturmak için ne eksik kalıyor?
Derin araştırma ajanları, otomatik arama ve sentezle analist düzeyinde raporlar vaat eder. Ancak mevcut sistemler gerçekten faydalı araştırmalar için yetersiz.
Soru şu: tam olarak nerede başarısız oluyorlar?
Bu yeni makale, rapor kalitesini değerlendirmek için 419 yapılandırılmış kontrol listesi öğesi ile insan tarafından hazırlanmış 100 araştırma görevinden oluşan bir kıyaslama olan FINDER'ı tanıtıyor. QA kıyaslamalarının aksine, FINDER kapsamlı rapor üretimine odaklanır.
Araştırmacılar, ana akım derin araştırma ajanlarından yaklaşık 1.000 raporu analiz etti. Bulguları, bu derin araştırma sistemlerinin nerede zorlandığı varsayımlarını sorgulatır.
Mevcut ajanlar görev anlama konusunda zorlanmıyor. Kanıt entegrasyonu, doğrulama ve akıl yürütmeye dayanıklı planlamada başarısız oluyorlar. Ne istediğini anlıyorlar. Sadece cevabı güvenilir şekilde sentezleyemiyorlar.
Makale, derin araştırma ajanları için ilk başarısızlık taksonomisi olan DEFT'i tanıtıyor. Üç kategoride 14 farklı arıza modu tanımlar: mantık hataları, geri alma hataları ve üretim hataları.
Bu sistematik dağılış, mevcut yeteneklerle faydalı araştırmalar arasındaki farkın daha akıllı arama veya daha iyi dil modelleriyle ilgili olmadığını ortaya koyuyor. Bu, geri çağırmayı sentezle bağlayan akıl yürütme mimarisiyle ilgilidir.
(yer imlerine işaret ediyor)
Kâğıt:

En İyiler
Sıralama
Takip Listesi

