跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+1.57%
USELESS
-1.65%
IKUN
-11.5%
gib
-15.83%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-5.28%
ALON
+0.65%
LAUNCHCOIN
-1.79%
GOONC
-2.39%
KLED
-4.24%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-3.39%
Boopa
-1.74%
PORK
0.00%
主页
Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
查看原文
Artificial Analysis
26 分钟前
人工分析在@latentspacepod的最新一集中与@Swyx对话。 创始人@_micah_h和@grmcameron讨论了: ➤ 人工分析的起源故事 ➤ AI基准测试的现状 ➤ 我们最新的基准测试,包括AA-Omniscience、GDPval-AA和开放指数 链接如下!
12
Artificial Analysis
3 小时前
TII,一家位于阿联酋的大学人工智能实验室,发布了Falcon-H1R-7B,这是一种小型开放权重推理模型,其性能与同类模型相当。 🧠 在<12B模型中,智能评分较高:Falcon-H1R-7B在我们更新的人工分析智能指数v4.0中得分为16,领先于NVIDIA Nemotron Nano 12B V2,但低于Qwen3 VL 8B。该模型在智能与总参数的帕累托前沿上表现良好。相较于其他<12B模型,Falcon-H1R-7B在三项单独评估中表现尤为出色——人类最后的考试(推理和知识)、𝜏²-Bench电信(工具使用)和IFBench(遵循指令)。 🇦🇪 第二个阿联酋排行榜参赛者:继MBZUAI的K2-V2之后,Falcon-H1R-7B是我们排行榜上第二个来自阿联酋组织的模型,在众多美国和中国模型中脱颖而出。由阿布扎比政府创立的技术创新研究所(TII)是一个全球研究中心,其使命是推动知识的前沿,活跃于多个领域,包括能源、量子技术和密码学。他们在Huggingface上拥有超过100个开放权重模型和变体。 📖 中等开放模型:Falcon-H1R-7B在人工分析开放指数中得分为44——这是我们新发布的、标准化的、独立评估的人工智能模型开放性测量,涵盖可用性和透明度。这使其领先于OpenAI的gpt-oss-20B,但落后于Qwen3 VL8B。我们最开放的模型,由MBZUAI和艾伦人工智能研究所提供,在排行榜上并列第一,得分为89,得益于更大的透明度和对其训练方法和数据的访问。 📈 高输出令牌:该模型使用了1.4亿个令牌来完成我们的智能指数。这使其在GLM-4.7之下,但高于大多数其他模型——无论是在其规模类别中还是在前沿模型中。 📘 预期知识符合其规模,适度的幻觉率:AA-Omniscience是我们新发布的基准,测量模型的事实知识和幻觉。Falcon-H1R-7B获得了-62的适度评分。其知识准确性评分(14)在预期范围内,因为我们看到模型规模与准确性(模型正确记忆的事实数量)之间存在强相关性。当模型未能正确记忆答案时,其幻觉率为87%——在前沿模型和小型开放权重模型中均为适度评分。 祝贺@TIIuae的发布!
3.3K
Artificial Analysis
1月6日 14:02
人工智能分析在今天的Nvidia 2026年CES主题演讲中被Jensen Huang提到! @NVIDIAAI最新的Nemotron 3 Nano(30B A3B)在我们的智能和效率基准测试中脱颖而出,成为一个高效的开放权重模型。
69
热门
排行
收藏