Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 LLM'ler, görevler arasında daha üst düzey araç becerilerini keşfedebiliyor, soyutlayabilir ve yeniden kullanabilir mi?
Mevcut araç kullanım kıyaslamaları, sabit araçlarla çözüm görevlerini test eder. Ancak gerçek iş akışları, verimliliğin izole çağrılardan değil, yeniden kullanılabilir araç kompozisyonlarından geldiği tekrarlayan yapılar içerir.
SkillCraft'ı tanıtıyoruz: LLM ajanlarının sadece atomik araçlar olarak değil, kompozisyon becerileri edinip edinemeyeceğini test etmek için tasarlanmış 6 alanda 126 görev.
Ayrıca, ajanların test zamanında araç zincirlerini oluşturabilmesi, doğrulaması, önbellemesi ve yeniden kullanmasını sağlayan dört MCP ilkili olan hafif bir protokol olan Skill Mode'u öneriyoruz.
8 SOTA modelinin değerlendirilmesiyle ilgili temel bulgularımız:
⚡Skill Mode, ajanların yetenekleri kendi kendine keşfetmesini ve yeniden kullanmasını sağlar; bu da ajanların onursuzluğuna göre daha yüksek başarı ve verimlilik sağlar. Daha güçlü modeller için kazançlar daha büyük.
🧠 Daha güçlü modeller (örneğin, Claude) daha genelleştirilebilir beceriler keşfeder; bu beceriler görevler arasında ve hatta modeller arasında aktarılır.
🔍 Daha derin kompozisyon ≠ daha iyi — yüzeysel, iyi test edilmiş beceriler en iyi şekilde genelleştirir.
🔗 Makale:
💻 Kod:
🏠 Sayfa:
(1/7)
En İyiler
Sıralama
Takip Listesi
