亞馬遜推出了 Nova 2.0,這是一個相較於之前的亞馬遜 Nova 型號的重大升級,並在代理能力方面展現出特別的強大。 亞馬遜發布了 Nova 2.0 Pro(預覽版),這是其新的旗艦型號;Nova 2.0 Lite,專注於速度和降低成本;以及 Nova 2.0 Omni,一個多模態模型,能夠處理文本、圖像、視頻和語音輸入,並輸出文本和圖像。 關鍵基準測試要點: 亞馬遜重回頂尖 AI 玩家行列:這是亞馬遜自 Nova Premier 以來的最新發布,也是亞馬遜首次發布推理模型。Nova 2.0 Pro 在人工分析智能指數上比 Premier 提升了 30 分,而 Lite 則提升了 38 分。這代表著能力的巨大增長,並使亞馬遜重回頂尖 AI 玩家之列。 在代理能力方面的優勢:代理能力,包括工具調用,是這些模型的一大優勢,Nova 2.0 Pro 在 τ²-Bench Telecom 上的得分為 93%,在 IFBench 上的中高推理預算得分為 80%(高推理的完整基準測試即將推出)。這使得 Nova 2.0 Pro 預覽版在這些基準測試中名列前茅。 多模態:Nova 2.0 Omni 是少數幾個能夠原生處理文本、圖像、視頻和語音輸入的模型之一,尤其是與 Gemini 模型系列相比。這是亞馬遜 Nova 模型系列的一個新區別。 具競爭力的定價:亞馬遜將 Nova 2.0 Pro 的價格定為每百萬個輸入/輸出標記 $1.25/$10,考慮到標記使用,該模型運行我們的人工分析智能指數花費了 $662。這比其他前沿模型如 Claude 4.5 Sonnet($817)和 Gemini 3 Pro($1201)要低得多,但仍高於其他模型,包括 Kimi K2 Thinking($380)。Nova 2.0 Lite 和 Omni 的價格均為每百萬個輸入/輸出標記 $0.3/$2.5。 請參見下方以獲取進一步分析。
Nova 2.0 Pro Preview 的代幣使用量在同類型模型中屬於較低水平。加上每百萬個輸入/輸出代幣的價格為 $1.25/$10,這使得 Nova 2.0 Pro Preview 的運行成本低於前沿模型,以進行我們的人工分析智能指數評估。Nova 2.0 Lite 和 Omni 的價格均為每百萬個輸入/輸出代幣 $0.3/$2.5,且比大多數其他推理模型便宜。
Nova 2.0 Pro 預覽在代理能力方面展現出特別的強度,在 τ²-Bench Telecom 上得分 93%,在 IFBench 上在中等和高推理預算下分別得分 80%(高推理的完整基準測試即將推出)。這使它在這些基準中名列前茅。
我們的人工分析智能指數評估的個別結果:
然而,事實的準確性和可靠性是這些模型的短板:Nova 2.0系列模型在AA-Omniscience指數上的得分不佳,主要是由於高幻覺率所驅動。
請參閱人工分析以獲取有關 Nova 2.0 的更多詳細信息和基準。
64.21K