Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MBZUAI'nin Temel Modeller Enstitüsü, Açıklık Endeksimizde #1 sırada yer alan ve BAE'den liderlik tablolarımızda yer alan ilk model olan 70B akıl yürütme modeli K2-V2'yi yayımladı
📖 Açıklıkta lider oldu: K2-V2, OLMo 3 32B Think ile birlikte Yapay Analiz Açıklık Endeksi'nin zirvesinde yer alıyor - yeni yayımlanan, standartlaştırılmış ve bağımsız olarak değerlendirilen yapay zeka modeli açıklığını ölçümümüz olan erişilebilirlik ve şeffaflık genelinde ölçmemiz. MBZUAI, model ağırlıklarının açık erişim ve lisanslanmasının ötesine geçti - eğitim öncesi ve sonrası verilere tam erişim sağlıyor. Ayrıca, herhangi bir amaç için ücretsiz kullanıma izin veren bir Apache lisansına sahip eğitim metodolojisi ve kodları yayımlıyorlar. Bu, K2-V2'yi açık kaynak topluluğuna değerli bir katkı haline getirir ve daha etkili ince ayar sağlar. Aşağıdaki bağlantılara bakabilirsiniz!
🧠 Güçlü orta boy (40-150B) açık ağırlık modeli: 70B'de K2-V2, Yüksek akıl yürütme modu ile Zeka İndeksimizde 46 puan alıyor. Bu da onu Llama Nemotron Super 49B v1.5'in üstüne ama Qwen3 Next 80B A3B'nin altına koyuyor. Model, IFBench'te %60 puan alarak talimat takip açısından göreceli bir güce sahiptir
🇦🇪 Liderlik tablolarımızda ilk katılan BAE: Büyük ölçüde ABD ve Çinli modellerin olduğu bir denizde, K2-V2, liderlik tablolarımızda BAE'nin ilk temsilcisi olarak öne çıkıyor ve İsrail'in AI21 laboratuvarlarından sonra Orta Doğu'dan gelen ikinci katılımcı olarak öne çıkıyor. K2-V2, karşılaştırdığımız ilk MBZUAI modeli, ancak laboratuvar daha önce Mısır Arapçası ve Hintçe dahil olmak üzere dil temsiline özel odaklanan modeller yayımlamıştır
📊 Düşük akıl yürütme modları token kullanımını ve halüsinasyonu azaltır: K2-V2'nin 3 akıl yürütme modu vardır; Yüksek akıl yürütme modu ise Zeka İndeksimizi tamamlamak için ~130M token kullanır. Ancak Orta mod, token kullanımını ~6x azaltır ve Zeka Endeksimizde sadece 6 puan düşüşü olur. İlginç bir şekilde, düşük akıl yürütme modları, bilgi ve halüsinasyon endeksimiz AA-Her Şeyi Bilme'de daha iyi puan alıyor, çünkü halüsinasyon görme eğilimi azalıyor

K2-V2, açıklıkta lider konumunda ve Açıklık ile Zeka arasındaki Pareto sınırında yer alıyor

Model, orta boyutlu (40-150B parametreleri) açık ağırlıklı modeller arasında güçlü performansa sahiptir

Yüksek akıl yürütme modu önemli token kullanımına sahip, ancak Medium token kullanımını ~6 kat azaltıyor ve Zeka İndeksimizde sadece 6 puan düşüşü oluyor

Düşük akıl yürütme modları, Yapay Analiz Her Şeyi Bilme Endeksi'nde daha iyi performans gösterir, çünkü daha az halüsinasyon görürler

Bireysel kıyaslama sonuçları. Tüm kıyaslamalar, modeller arasında ve bağımsız olarak benzer şekilde çalıştırılmıştır

Yapay Analiz üzerine daha fazla analiz:
HuggingFace 🤗 bağlantısı, ağırlıklar, veriler, eğitim kodu ve teknik rapor dahil olmak üzere:
MBZUAI ve IFM'in Gönderileri:
34,4K
En İyiler
Sıralama
Takip Listesi
