一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

亚马逊推出了Nova 2.0，这是对之前亚马逊Nova模型的重大升级，展现了在代理能力方面的特别强大。亚马逊发布了Nova 2.0 Pro（预览版），这是其新的旗舰模型；Nova 2.0 Lite，专注于速度和降低成本；以及Nova 2.0 Omni，一个多模态模型，能够处理文本、图像、视频和语音输入，并输出文本和图像。关键基准测试要点：亚马逊重返顶级AI玩家行列：这是亚马逊自Nova Premier以来的最新发布，也是亚马逊首次发布推理模型。Nova 2.0 Pro在人工分析智能指数上比Premier提高了30分，而Lite提高了38分。这代表了能力的巨大提升，亚马逊重新回到了顶级AI玩家之中。在代理能力方面的优势：代理能力，包括工具调用，是这些模型的强项，Nova 2.0 Pro在τ²-Bench Telecom上得分93%，在IFBench上在中等和高推理预算下分别得分80%（高推理的完整基准测试即将发布）。这使得Nova 2.0 Pro预览版在这些基准测试中名列前茅。多模态：Nova 2.0 Omni是少数几个能够原生处理文本、图像、视频和语音输入的模型之一，尤其是与Gemini模型系列相比。这是亚马逊Nova模型系列的新差异化特征。具有竞争力的定价：亚马逊将Nova 2.0 Pro的定价定为每百万输入/输出令牌1.25美元/10美元，考虑到令牌使用，该模型在运行我们的人工分析智能指数时花费了662美元。这远低于其他前沿模型，如Claude 4.5 Sonnet（817美元）和Gemini 3 Pro（1201美元），但仍高于其他模型，包括Kimi K2 Thinking（380美元）。Nova 2.0 Lite和Omni的定价均为每百万输入/输出令牌0.3美元/2.5美元。请参见下文以获取进一步分析。

Nova 2.0 Pro Preview 的代币使用量处于同类模型的较低水平。加上每百万输入/输出代币的定价为 $1.25/$10，这使得 Nova 2.0 Pro Preview 的运行成本低于前沿模型，以进行我们的人工分析智能指数评估。Nova 2.0 Lite 和 Omni 的定价均为每百万输入/输出代币 $0.3/$2.5，且比大多数其他推理模型便宜。

Nova 2.0 Pro 预览在代理能力方面表现出色，在 τ²-Bench Telecom 上得分 93%，在 IFBench 上在中等和高推理预算下分别得分 80%（高推理的完整基准测试即将发布）。这使其在这些基准测试中位列领先模型之列。

我们人工分析智能指数评估的个体结果：

然而，事实准确性和可靠性是这些模型的短板：Nova 2.0系列模型在AA-Omniscience指数上的得分不佳，主要是由于高幻觉率所致。

有关 Nova 2.0 的更多详细信息和基准，请参见人工分析

64.19K