一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

TII，一家位於阿聯酋的大学 AI 实验室，发布了 Falcon-H1R-7B，这是一款小型的开放权重推理模型，其性能与同类模型相当 🧠 在 <12B 模型中具有强大的智能评分：Falcon-H1R-7B 在我们更新的人工分析智能指数 v4.0 中得分 16，领先于 NVIDIA Nemotron Nano 12B V2，但低于 Qwen3 VL 8B。该模型在智能与总参数的帕累托前沿上表现良好，相较于其他 <12B 的模型，Falcon-H1R-7B 在三项单独评估中表现尤为出色——人类的最后考试（推理和知识）、𝜏²-Bench 电信（代理工具使用）和 IFBench（指令遵循） 🇦🇪 第二个阿聯酋排行榜参赛者：继 MBZUAI 的 K2-V2 之后，Falcon-H1R-7B 是我们排行榜上第二个来自阿聯酋组织的模型，在众多美国和中国模型中脱颖而出。由阿布扎比政府创立的技术创新研究所（TII）是一个全球研究中心，其使命是推动知识的前沿，活跃于多个领域，包括能源、量子技术和密码学。他们在 Huggingface 上拥有超过 100 个开放权重模型和变体 📖 中等开放模型：Falcon-H1R-7B 在人工分析开放性指数中得分 44——我们新发布的、标准化的、独立评估的 AI 模型开放性测量，涵盖可用性和透明度。这使其领先于 OpenAI 的 gpt-oss-20B，但落后于 Qwen3 VL8B。我们最开放的模型，由 MBZUAI 和艾伦人工智能研究所提供，在 89 分的排行榜上并列，得益于更大的透明度和对其训练方法和数据的访问 📈 高输出令牌：该模型使用 140M 令牌完成我们的智能指数。这使其在 GLM-4.7 之下，但高于大多数其他模型——无论是在其大小类别中还是在前沿模型中 📘 预期知识与其大小相符，适度的幻觉率：AA-Omniscience 是我们新发布的基准，测量模型的事实知识和幻觉。Falcon-H1R-7B 得到适度的分数 -62。其知识准确性得分（14）在预期范围内，因为我们看到模型大小与准确性（模型正确记住的事实数量）之间存在强相关性。该模型在未能正确记住答案时幻觉发生率为 87%——在前沿模型和小型开放权重模型中均为适度分数祝贺 @TIIuae 的发布！