熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
TII,一家位於阿聯酋的大学 AI 实验室,发布了 Falcon-H1R-7B,这是一款小型的开放权重推理模型,其性能与同类模型相当
🧠 在 <12B 模型中具有强大的智能评分:Falcon-H1R-7B 在我们更新的人工分析智能指数 v4.0 中得分 16,领先于 NVIDIA Nemotron Nano 12B V2,但低于 Qwen3 VL 8B。该模型在智能与总参数的帕累托前沿上表现良好,相较于其他 <12B 的模型,Falcon-H1R-7B 在三项单独评估中表现尤为出色——人类的最后考试(推理和知识)、𝜏²-Bench 电信(代理工具使用)和 IFBench(指令遵循)
🇦🇪 第二个阿聯酋排行榜参赛者:继 MBZUAI 的 K2-V2 之后,Falcon-H1R-7B 是我们排行榜上第二个来自阿聯酋组织的模型,在众多美国和中国模型中脱颖而出。由阿布扎比政府创立的技术创新研究所(TII)是一个全球研究中心,其使命是推动知识的前沿,活跃于多个领域,包括能源、量子技术和密码学。他们在 Huggingface 上拥有超过 100 个开放权重模型和变体
📖 中等开放模型:Falcon-H1R-7B 在人工分析开放性指数中得分 44——我们新发布的、标准化的、独立评估的 AI 模型开放性测量,涵盖可用性和透明度。这使其领先于 OpenAI 的 gpt-oss-20B,但落后于 Qwen3 VL8B。我们最开放的模型,由 MBZUAI 和艾伦人工智能研究所提供,在 89 分的排行榜上并列,得益于更大的透明度和对其训练方法和数据的访问
📈 高输出令牌:该模型使用 140M 令牌完成我们的智能指数。这使其在 GLM-4.7 之下,但高于大多数其他模型——无论是在其大小类别中还是在前沿模型中
📘 预期知识与其大小相符,适度的幻觉率:AA-Omniscience 是我们新发布的基准,测量模型的事实知识和幻觉。Falcon-H1R-7B 得到适度的分数 -62。其知识准确性得分(14)在预期范围内,因为我们看到模型大小与准确性(模型正确记住的事实数量)之间存在强相关性。该模型在未能正确记住答案时幻觉发生率为 87%——在前沿模型和小型开放权重模型中均为适度分数
祝贺 @TIIuae 的发布!

Falcon-H1R-7B 是我們排行榜上來自阿聯酋的一家公司的第二款型號,身處於美國和中國型號的海洋中。

Falcon-H1R-7B 在人工分析開放指數中得分中等

該模型使用了1.4億個標記來完成我們的智能指數——低於GLM-4.7,但高於大多數其他模型

Falcon-H1R-7B 在 AA-Omniscience 中獲得了中等分數,對於其大小預期的知識和中等的幻覺率。

相較於可比較的模型,Falcon-H1R-7B 在人類最後考試(推理和知識)、𝜏²-Bench Telecom(代理工具使用)和 IFBench(指令遵循)中表現良好。

對人工分析的進一步分析:
Hugging Face 🤗 連結:
技術報告:
25.63K
熱門
排行
收藏
