BAE merkezli bir üniversite yapay zeka laboratuvarı olan TII, benzer boyuttaki modellerle iyi karşılaştırılan küçük açık ağırlık akıl yürütme modeli olan Falcon-H1R-7B'yi piyasaya sürdü 🧠 <12B modelleri arasında güçlü zeka puanı: Falcon-H1R-7B, güncellenmiş Yapay Analiz Zeka Endeksi v4.0'da 16 puan aldı - NVIDIA Nemotron Nano 12B V2'nin önünde ama Qwen3 VL 8B'nin altında. Model, karşılaştırılabilir modeller için Zeka ile Toplam Parametreler arasında Pareto sınırında iyi konumlandırılmıştır. Diğer modellere göre <12B, Falcon-H1R-7B özellikle 3 bireysel değerlendirmede - İnsanlığın Son Sınavı (akıl yürütme ve bilgi), τ²-Bench Telecom (ajanik araç kullanımı) ve IFBench (talimat takibi) - özellikle iyi performans gösterir 🇦🇪 İkinci BAE liderlik listesine giren: MBZUAI'nin K2-V2'sinden sonra, Falcon-H1R-7B, ABD ve Çin modellerinin denizinin arasında liderlik tablolarımızda BAE merkezli bir organizasyonun ikinci modelidir. Abu Dabi hükümeti tarafından kurulan Teknoloji İnovasyon Enstitüsü (TII), bilginin sınırlarını zorlamayı amaçlayan küresel bir araştırma merkezidir ve enerji, kuantum teknolojisi ve kriptografi gibi birçok alanda aktiftir. Huggingface'de 100'den fazla açık ağırlık modeli ve varyantı var 📖 Orta derecede açık model: Falcon-H1R-7B, yeni yayımlanan, standartlaştırılmış ve bağımsız olarak değerlendirilen yapay zeka modelinin açıklık ölçümü olan Yapay Analiz Açıklık Endeksi'nde 44 puan aldı. Bu da onu OpenAI'nin gpt-oss-20B'sinin önüne koyar, ancak Qwen3 VL8B'nin gerisinde konumlandırır. MBZUAI ve Allen Institute for AI tarafından hazırlanan en açık modellerimiz, daha fazla şeffaflık ve eğitim metodolojisi ile verilerine erişim sayesinde liderlik tablosunu 89'a kadar eşitler 📈 Yüksek çıkışlı tokenlar: Model, Zeka Endeksimizi tamamlamak için 140M token kullandı. Bu, onu GLM-4.7'nin altında konumlandırır, ancak hem boyut kategorisinde hem de öncü modeller arasında çoğu diğer modelden daha yüksek konumda 📘 Boyutuna göre beklenen bilgi, orta halüsinasyon oranı: AA-Omniscience, modellerin gerçek bilgisini ve halüsinasyonunu ölçen yeni yayımlanan kıstacımızdır. Falcon-H1R-7B orta derecede -62 puan alır. Bilgi doğruluk puanı (14), model boyutu ile doğruluk (modelin doğru hatırladığı gerçek) arasında güçlü bir korelasyon gördüğümüz için beklentiler içindedir. Model, cevapları doğru hatırlamadığında %87 halüsinasyon görür - hem sınır modelleri hem de küçük açık ağırlık modelleri arasında orta bir puan Lansman için tebrikler @TIIuae!
Falcon-H1R-7B, ABD ve Çin modellerinin denizinde liderlik tablolarımızda yer alan BAE merkezli bir şirketin ikinci modelidir
Falcon-H1R-7B, Yapay Analiz Açıklık Endeksi'nde orta derecede bir puana sahiptir
Model, Zeka Endeksi'mizi tamamlamak için 140M token kullandı - GLM-4.7'nin altında ama çoğu diğer modelden daha yüksek.
Falcon-H1R-7B, AA-Omniscience'da orta düzeyde bir puan alır; boyutuna göre beklenen bir bilgi ve orta düzeyde halüsinasyon oranına sahiptir
Karşılaştırılabilir modellere göre, Falcon-H1R-7B Humanity's Last Exam (akıl yürütme ve bilgi), τ²-Bench Telecom (ajanik araç kullanımı) ve IFBench (talimat takibi) alanlarında iyi performans gösterir
Yapay Analiz üzerine daha fazla analiz: Sarılma Yüzü 🤗 bağlantısı: Teknik rapor:
23,06K