亚马逊推出了Nova 2.0,这是对之前亚马逊Nova模型的重大升级,展现了在代理能力方面的特别强大。 亚马逊发布了Nova 2.0 Pro(预览版),这是其新的旗舰模型;Nova 2.0 Lite,专注于速度和降低成本;以及Nova 2.0 Omni,一个多模态模型,能够处理文本、图像、视频和语音输入,并输出文本和图像。 关键基准测试要点: 亚马逊重返顶级AI玩家行列:这是亚马逊自Nova Premier以来的最新发布,也是亚马逊首次发布推理模型。Nova 2.0 Pro在人工分析智能指数上比Premier提高了30分,而Lite提高了38分。这代表了能力的巨大提升,亚马逊重新回到了顶级AI玩家之中。 在代理能力方面的优势:代理能力,包括工具调用,是这些模型的强项,Nova 2.0 Pro在τ²-Bench Telecom上得分93%,在IFBench上在中等和高推理预算下分别得分80%(高推理的完整基准测试即将发布)。这使得Nova 2.0 Pro预览版在这些基准测试中名列前茅。 多模态:Nova 2.0 Omni是少数几个能够原生处理文本、图像、视频和语音输入的模型之一,尤其是与Gemini模型系列相比。这是亚马逊Nova模型系列的新差异化特征。 具有竞争力的定价:亚马逊将Nova 2.0 Pro的定价定为每百万输入/输出令牌1.25美元/10美元,考虑到令牌使用,该模型在运行我们的人工分析智能指数时花费了662美元。这远低于其他前沿模型,如Claude 4.5 Sonnet(817美元)和Gemini 3 Pro(1201美元),但仍高于其他模型,包括Kimi K2 Thinking(380美元)。Nova 2.0 Lite和Omni的定价均为每百万输入/输出令牌0.3美元/2.5美元。 请参见下文以获取进一步分析。
Nova 2.0 Pro Preview 的代币使用量处于同类模型的较低水平。加上每百万输入/输出代币的定价为 $1.25/$10,这使得 Nova 2.0 Pro Preview 的运行成本低于前沿模型,以进行我们的人工分析智能指数评估。Nova 2.0 Lite 和 Omni 的定价均为每百万输入/输出代币 $0.3/$2.5,且比大多数其他推理模型便宜。
Nova 2.0 Pro 预览在代理能力方面表现出色,在 τ²-Bench Telecom 上得分 93%,在 IFBench 上在中等和高推理预算下分别得分 80%(高推理的完整基准测试即将发布)。这使其在这些基准测试中位列领先模型之列。
我们人工分析智能指数评估的个体结果:
然而,事实准确性和可靠性是这些模型的短板:Nova 2.0系列模型在AA-Omniscience指数上的得分不佳,主要是由于高幻觉率所致。
有关 Nova 2.0 的更多详细信息和基准,请参见人工分析
64.19K