TII,一家位于阿联酋的大学人工智能实验室,发布了Falcon-H1R-7B,这是一种小型开放权重推理模型,其性能与同类模型相当。 🧠 在<12B模型中,智能评分较高:Falcon-H1R-7B在我们更新的人工分析智能指数v4.0中得分为16,领先于NVIDIA Nemotron Nano 12B V2,但低于Qwen3 VL 8B。该模型在智能与总参数的帕累托前沿上表现良好。相较于其他<12B模型,Falcon-H1R-7B在三项单独评估中表现尤为出色——人类最后的考试(推理和知识)、𝜏²-Bench电信(工具使用)和IFBench(遵循指令)。 🇦🇪 第二个阿联酋排行榜参赛者:继MBZUAI的K2-V2之后,Falcon-H1R-7B是我们排行榜上第二个来自阿联酋组织的模型,在众多美国和中国模型中脱颖而出。由阿布扎比政府创立的技术创新研究所(TII)是一个全球研究中心,其使命是推动知识的前沿,活跃于多个领域,包括能源、量子技术和密码学。他们在Huggingface上拥有超过100个开放权重模型和变体。 📖 中等开放模型:Falcon-H1R-7B在人工分析开放指数中得分为44——这是我们新发布的、标准化的、独立评估的人工智能模型开放性测量,涵盖可用性和透明度。这使其领先于OpenAI的gpt-oss-20B,但落后于Qwen3 VL8B。我们最开放的模型,由MBZUAI和艾伦人工智能研究所提供,在排行榜上并列第一,得分为89,得益于更大的透明度和对其训练方法和数据的访问。 📈 高输出令牌:该模型使用了1.4亿个令牌来完成我们的智能指数。这使其在GLM-4.7之下,但高于大多数其他模型——无论是在其规模类别中还是在前沿模型中。 📘 预期知识符合其规模,适度的幻觉率:AA-Omniscience是我们新发布的基准,测量模型的事实知识和幻觉。Falcon-H1R-7B获得了-62的适度评分。其知识准确性评分(14)在预期范围内,因为我们看到模型规模与准确性(模型正确记忆的事实数量)之间存在强相关性。当模型未能正确记忆答案时,其幻觉率为87%——在前沿模型和小型开放权重模型中均为适度评分。 祝贺@TIIuae的发布!
Falcon-H1R-7B 是我们排行榜上来自阿联酋的一家公司的第二款型号,在众多美国和中国型号中脱颖而出。
Falcon-H1R-7B 在人工分析开放指数中得分适中
该模型使用了1.4亿个令牌来完成我们的智能指数——低于GLM-4.7,但高于大多数其他模型
Falcon-H1R-7B 在 AA-Omniscience 中获得了中等评分,考虑到其规模,预期知识水平和中等的幻觉率。
与可比模型相比,Falcon-H1R-7B 在人类最后考试(推理和知识)、𝜏²-Bench Telecom(代理工具使用)和 IFBench(指令遵循)中表现良好。
关于人工分析的进一步分析: Hugging Face 🤗 链接: 技术报告:
19.9K