一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

TII，一家位于阿联酋的大学人工智能实验室，发布了Falcon-H1R-7B，这是一种小型开放权重推理模型，其性能与同类模型相当。 🧠 在<12B模型中，智能评分较高：Falcon-H1R-7B在我们更新的人工分析智能指数v4.0中得分为16，领先于NVIDIA Nemotron Nano 12B V2，但低于Qwen3 VL 8B。该模型在智能与总参数的帕累托前沿上表现良好。相较于其他<12B模型，Falcon-H1R-7B在三项单独评估中表现尤为出色——人类最后的考试（推理和知识）、𝜏²-Bench电信（工具使用）和IFBench（遵循指令）。 🇦🇪 第二个阿联酋排行榜参赛者：继MBZUAI的K2-V2之后，Falcon-H1R-7B是我们排行榜上第二个来自阿联酋组织的模型，在众多美国和中国模型中脱颖而出。由阿布扎比政府创立的技术创新研究所（TII）是一个全球研究中心，其使命是推动知识的前沿，活跃于多个领域，包括能源、量子技术和密码学。他们在Huggingface上拥有超过100个开放权重模型和变体。 📖 中等开放模型：Falcon-H1R-7B在人工分析开放指数中得分为44——这是我们新发布的、标准化的、独立评估的人工智能模型开放性测量，涵盖可用性和透明度。这使其领先于OpenAI的gpt-oss-20B，但落后于Qwen3 VL8B。我们最开放的模型，由MBZUAI和艾伦人工智能研究所提供，在排行榜上并列第一，得分为89，得益于更大的透明度和对其训练方法和数据的访问。 📈 高输出令牌：该模型使用了1.4亿个令牌来完成我们的智能指数。这使其在GLM-4.7之下，但高于大多数其他模型——无论是在其规模类别中还是在前沿模型中。 📘 预期知识符合其规模，适度的幻觉率：AA-Omniscience是我们新发布的基准，测量模型的事实知识和幻觉。Falcon-H1R-7B获得了-62的适度评分。其知识准确性评分（14）在预期范围内，因为我们看到模型规模与准确性（模型正确记忆的事实数量）之间存在强相关性。当模型未能正确记忆答案时，其幻觉率为87%——在前沿模型和小型开放权重模型中均为适度评分。祝贺@TIIuae的发布！