跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+3.34%
USELESS
+2.69%
IKUN
-3.57%
gib
-23.39%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+3%
ALON
-0.01%
LAUNCHCOIN
+4.73%
GOONC
-0.44%
KLED
+20.98%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-6.78%
Boopa
+1.31%
PORK
+0.31%
主页
Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
查看原文
Artificial Analysis
2025年12月31日
GDPval-AA 排行榜更新:GLM-4.7 以 1224 的 ELO 成为新的开放权重领导者,而 MiniMax M2.1 在 M2 的基础上取得了显著改进。 GDPval-AA 在专用终端环境和网络访问的基础上,比较模型在准备演示文稿、分析等现实知识工作任务上的输出。然后将工作输出相互比较,并通过自动化管道进行评估,以生成匹配和 ELO 分数。 ➤ @Zai_org 的 GLM-4.7 达到 1224 的 ELO,紧随其后的是 GPT-5.1(高),与 GLM-4.6 相比增加了约 170 分。这意味着我们预计 GLM-4.7 的输出在面对面比较时将以 73% 的概率击败 GLM-4.6。 ➤ @MiniMax__AI 也在 GDPval-AA 上展示了他们的 M2.1 发布所带来的改进,ELO 比之前的 M2 模型提高了 +56 分,但仍处于 GLM-4.6 和 GPT-5.1 Codex(高)之间。
2.65K
Artificial Analysis
2025年12月22日
Z-Image Turbo 是新的 #1 开放权重文本到图像模型,超越了 FLUX.2 [dev]、HunyuanImage 3.0 (Fal) 和 Qwen-Image,在人工分析图像领域中脱颖而出。 Z-Image Turbo 是阿里巴巴 Tongyi-MAI 团队发布的第一个模型(与阿里巴巴 Wan 和 Qwen 团队分开),在阿里巴巴云上每千张图像的费用为 5 美元,使其成为可用的最便宜的图像模型之一 - 比 FLUX.2 [dev](每千张图像 12 美元)、HiDream-I1-Dev(每千张图像 26 美元)和 Qwen-Image(每千张图像 20 美元)都便宜。它是一个 6B 参数模型,只需 16GB 内存即可在消费级硬件上运行。 Z-Image Turbo 在 Apache 2.0 开源许可证下发布,允许商业使用且没有限制。它可以通过阿里巴巴云、fal 和 Replicate 的 API 获得。 请参见下面我们在人工分析图像领域中 Z-Image Turbo 与其他领先开放权重模型的比较 🧵
1.62K
Artificial Analysis
2025年12月20日
小米刚刚推出了MiMo-V2-Flash,这是一个309B开放权重推理模型,在人工分析智能指数上得分66。这一发布使小米与其他领先的AI模型实验室并驾齐驱。 关键基准测试要点: ➤ 在代理工具使用和竞争数学方面的优势:MiMo-V2-Flash在τ²-Bench电信上得分95%,在AIME 2025上得分96%,展示了在代理工具使用工作流程和竞争风格数学推理方面的强大表现。MiMo-V2-Flash目前在评估模型中领先于τ²-Bench电信类别。 ➤ 成本竞争力:完整的人工分析评估套件运行成本仅为53美元。这得益于MiMo-V2-Flash每百万输入0.10美元和每百万输出0.30美元的高度竞争定价,使其在成本敏感的部署和大规模生产工作负载中尤为吸引人。这与DeepSeek V3.2(总运行成本54美元)相似,远低于GPT-5.2(总运行成本1294美元)。 ➤ 高令牌使用率:MiMo-V2-Flash相对于同一智能层级的其他模型表现出高冗长性和令牌使用率,在人工分析智能套件中使用了约1.5亿个推理令牌。 ➤ 开放权重:MiMo-V2-Flash是开放权重,具有309B参数,在推理时激活15B。权重在MIT许可证下发布,延续了中国AI模型实验室开源其前沿模型的趋势。 请参见下面的进一步分析:
22.64K
1
热门
排行
收藏