Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash şu anda PinchBench'te OpenClaw için en yüksek başarı oranını gösteriyor olan %95,1.
PinchBench, modellerin OpenClaw ile gerçek dünya senaryolarında nasıl performans gösterdiğini değerlendiren açık bir kıyastır. Izole yetenek testlerinden ziyade pratik kullanıma odaklanır.
Görevler arasında kod yazmak, dosya yönetimi, planlama ve araştırma yer alır.
PinchBench şöyle şeylere bakıyor:
- Araç kullanımı. Model, doğru parametrelerle doğru araçları çağırabilir mi?
- Çok adımlı akıl yürütme. Karmaşık görevleri tamamlamak için eylemleri zincirleyebilir mi?
- Gerçek dünyadaki dağınıklık. Belirsiz talimatları ve eksik bilgileri kaldırabilir mi?
- Pratik sonuçlar. Gerçekten dosyayı oluşturdu, e-postayı gönderdi mi yoksa toplantıyı mı planladı?
Tam liderlik tablosu aşağıda.
1/2

En İyiler
Sıralama
Takip Listesi
