热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
亚马逊推出了Nova 2.0,这是对之前亚马逊Nova模型的重大升级,展现了在代理能力方面的特别强大。
亚马逊发布了Nova 2.0 Pro(预览版),这是其新的旗舰模型;Nova 2.0 Lite,专注于速度和降低成本;以及Nova 2.0 Omni,一个多模态模型,能够处理文本、图像、视频和语音输入,并输出文本和图像。
关键基准测试要点:
亚马逊重返顶级AI玩家行列:这是亚马逊自Nova Premier以来的最新发布,也是亚马逊首次发布推理模型。Nova 2.0 Pro在人工分析智能指数上比Premier提高了30分,而Lite提高了38分。这代表了能力的巨大提升,亚马逊重新回到了顶级AI玩家之中。
在代理能力方面的优势:代理能力,包括工具调用,是这些模型的强项,Nova 2.0 Pro在τ²-Bench Telecom上得分93%,在IFBench上在中等和高推理预算下分别得分80%(高推理的完整基准测试即将发布)。这使得Nova 2.0 Pro预览版在这些基准测试中名列前茅。
多模态:Nova 2.0 Omni是少数几个能够原生处理文本、图像、视频和语音输入的模型之一,尤其是与Gemini模型系列相比。这是亚马逊Nova模型系列的新差异化特征。
具有竞争力的定价:亚马逊将Nova 2.0 Pro的定价定为每百万输入/输出令牌1.25美元/10美元,考虑到令牌使用,该模型在运行我们的人工分析智能指数时花费了662美元。这远低于其他前沿模型,如Claude 4.5 Sonnet(817美元)和Gemini 3 Pro(1201美元),但仍高于其他模型,包括Kimi K2 Thinking(380美元)。Nova 2.0 Lite和Omni的定价均为每百万输入/输出令牌0.3美元/2.5美元。
请参见下文以获取进一步分析。

Nova 2.0 Pro Preview 的代币使用量处于同类模型的较低水平。加上每百万输入/输出代币的定价为 $1.25/$10,这使得 Nova 2.0 Pro Preview 的运行成本低于前沿模型,以进行我们的人工分析智能指数评估。Nova 2.0 Lite 和 Omni 的定价均为每百万输入/输出代币 $0.3/$2.5,且比大多数其他推理模型便宜。

Nova 2.0 Pro 预览在代理能力方面表现出色,在 τ²-Bench Telecom 上得分 93%,在 IFBench 上在中等和高推理预算下分别得分 80%(高推理的完整基准测试即将发布)。这使其在这些基准测试中位列领先模型之列。

我们人工分析智能指数评估的个体结果:

然而,事实准确性和可靠性是这些模型的短板:Nova 2.0系列模型在AA-Omniscience指数上的得分不佳,主要是由于高幻觉率所致。

有关 Nova 2.0 的更多详细信息和基准,请参见人工分析
64.19K
热门
排行
收藏

