热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
Cerebras 本周展示了其以非常高的速度托管大型 MoE 的能力,推出了 Qwen3 235B 2507 和 Qwen3 Coder 480B 端点,输出速度超过 1,500 个 token/s
➤ @CerebrasSystems 现在提供 Qwen3 235B 2507 推理和非推理的端点。这两个模型的总参数为 235B,活跃参数为 22B。
➤ Qwen 3 235B 2507 推理提供的智能可与 o4-mini(高)和 DeepSeek R1 0528 相媲美。非推理变体的智能可与 Kimi K2 相媲美,远超 GPT-4.1 和 Llama 4 Maverick。
➤ Qwen3 Coder 480B 的总参数为 480B,活跃参数为 35B。该模型在代理编码方面特别强大,可以用于多种编码代理工具,包括 Qwen3-Coder CLI。
Cerebras 的发布代表了这一智能水平首次以这些输出速度可用,并有潜力解锁新的用例——例如,在不必等待几分钟的情况下,为每个代理步骤使用推理模型。

23.6K
🇰🇷 LG 最近推出了 EXAONE 4.0 32B - 在人工分析智能指数上得分 62,是迄今为止 32B 模型中最高的分数。
@LG_AI_Research 的 EXAONE 4.0 有两个变体:我们在这里报告基准测试结果的 32B 混合推理模型,以及一个为设备应用设计的小型 1.2B 模型,我们尚未对其进行基准测试。
随着 Upstage 最近发布的 Solar Pro 2,看到韩国 AI 实验室与美国和中国一起接近智能排行榜的顶端,令人兴奋。
关键结果:
➤ 🧠 EXAONE 4.0 32B(推理):在推理模式下,EXAONE 4.0 在人工分析智能指数上得分 62。这与 Claude 4 Opus 和 NVIDIA 的新款 Llama Nemotron Super 49B v1.5 相匹配,仅比 Gemini 2.5 Flash 低 1 分。
➤ ⚡ EXAONE 4.0 32B(非推理):在非推理模式下,EXAONE 4.0 在人工分析智能指数上得分 51。尽管总参数仅约为 1/4,但在智能上与 Llama 4 Maverick 相匹配(尽活跃参数约为 2 倍)。
➤ ⚙️ 输出令牌和冗长性:在推理模式下,EXAONE 4.0 为人工分析智能指数使用了 1 亿个输出令牌。这比其他一些前沿模型要高,但与推理模型使用更多输出令牌以“思考更多”的近期趋势一致 - 类似于 Llama Nemotron Super 49B v1.5、Grok 4 和 Qwen3 235B 2507 推理。在非推理模式下,EXAONE 4.0 使用了 1500 万个令牌 - 对于非推理者来说很高,但不及 Kimi K2 的 3000 万。
关键细节:
➤ 混合推理:该模型在“推理”模式和“非推理”模式之间提供选择。
➤ 可用性:目前由 @friendliai 托管,FriendliAI 以每 100 万输入和输出令牌 1 美元的竞争性价格提供(尤其是与专有选项相比)。
➤ 开放权重:EXAONE 4.0 是一个开放权重模型,依据 EXAONE AI 模型许可协议 1.2 提供。该许可限制商业使用。
➤ 多模态性:仅支持文本输入和输出。
➤ 上下文窗口:131k 令牌。
➤ 参数:32B 活跃和总参数,提供 16 位和 8 位精度(意味着该模型可以在单个 H100 芯片上以全精度运行)。

41.33K
宣布人工分析音乐竞技场排行榜:超过5000票,Suno v4.5 是领先的音乐生成模型,其次是 Riffusion 的 FUZZ-1.1 Pro。
谷歌的 Lyria 2 在我们的器乐排行榜中排名第三,而 Udio 的 v1.5 Allegro 在我们的声乐排行榜中排名第三。
器乐排行榜如下:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Stable Audio 2.0
@metaai MusicGen
排名基于社区在多种风格和提示下的投票。想看到你的提示被展示吗?你可以今天在竞技场提交提示。
👇 请查看下面的声乐排行榜和参与链接!

21.94K
2024年至2025年的模型需求变化:Google(+49分)、DeepSeek(+53分)和xAI(+31分)在过去一年中实现了需求份额的巨大增长。
@Google已经从AI落后者转变为AI领导者,使用或考虑Gemini模型系列的受访者比例增加了约2.5倍。推动这一变化的关键因素是Google在智能方面取得了显著进展:Gemini 2.5 Pro现在在我们的人工智能分析指数中排名第三,而在2024年初则明显落后于OpenAI和Anthropic。
@deepseek_ai在2024年上半年仅发布了DeepSeek 67B,这一模型的采用有限,表现不及Llama 3 70B。DeepSeek在2024年末首次获得了一些采用,推出了他们的V2模型,随后在2025年初随着V3和R1模型的发布迅速获得了采用,使他们在开放权重模型中处于领先地位。
@xai在2024年上半年中期发布了其首个模型Grok-1,并迅速在所有模型中攀升至智能领导地位,随着后续发布,最终在上周推出了Grok 4。
来源:人工智能分析AI采用调查2025年上半年(报告可在人工智能分析网站上获取)

388.82K
Kimi K2 提供商:Groq 的输出速度超过 400 个 token/s,比 Moonshot 的第一方 API 快 40 倍。
祝贺多家提供商迅速推出 Kimi K2 的 API,包括 @GroqInc、@basetenco、@togethercompute、@FireworksAI_HQ、@parasail_io、@novita_labs、@DeepInfra,以及当然还有 @Kimi_Moonshot。考虑到模型的规模达到 1 万亿个参数,这实在令人印象深刻。
Groq 以其超快的速度脱颖而出。DeepInfra、Novita 和 Baseten 以其定价而突出,成为唯一与 Moonshot 的第一方 API 定价相似或更便宜的提供商。
请参见下面对各提供商的进一步比较。我们预计随着团队对 K2 模型的优化,一些提供商的速度将迅速提升——我们下面的数字显示了过去 72 小时的中位速度,但我们已经看到 DeepInfra 在今天的测量中跃升至 62 tokens/s。

52.04K
虽然Moonshot AI的Kimi k2是人工分析智能指数中领先的开放权重非推理模型,但它输出的token数量是其他非推理模型的约3倍,模糊了推理与非推理之间的界限。
Kimi k2是迄今为止最大的主要开放权重模型——总参数为1万亿,活跃参数为320亿(这需要巨大的1TB内存以原生FP8格式存储权重)。在人工分析智能指数中,我们将k2排在57位,这是一个令人印象深刻的分数,超过了GPT-4.1和DeepSeek V3等模型,但落后于领先的推理模型。
到目前为止,在我们的评估中,推理模型和非推理模型之间有明显的区别——不仅由模型是否使用<reasoning>标签来定义,主要由token使用量来决定。在人工分析智能指数中,回答所有评估所使用的token的中位数数量,对于推理模型来说是非推理模型的约10倍。
@Kimi_Moonshot的Kimi k2使用的token数量是中位数非推理模型的约3倍。在其最大预算扩展思维模式下,其token使用量仅比Claude 4 Sonnet和Opus低30%,并且在推理关闭时,其token使用量几乎是Claude 4 Sonnet和Opus的三倍。
因此,我们建议将Kimi k2与Claude 4 Sonnet和Opus在其最大预算扩展思维模式下进行比较,而不是与Claude 4模型的非推理分数进行比较。
Kimi k2可在@Kimi_Moonshot的第一方API以及@FireworksAI_HQ、@togethercompute、@novita_labs和@parasail_io上使用。
请参见下文和人工分析以获取进一步分析👇



60.38K
OpenAI的新深度研究API每次调用的费用高达约30美元!这些新的深度研究API端点可能是花钱的新最快方式。
在我们的10个深度研究测试查询中,我们在o3上花费了100美元,在o4-mini上花费了9.18美元。费用怎么会这么高?高价格和数百万个令牌。
这些端点是经过深度研究任务强化学习(RL)的o3和o4-mini的版本。通过API的可用性使它们可以与OpenAI的网络搜索工具和通过远程MCP服务器的自定义数据源一起使用。
o4-mini深度研究的定价比o3深度研究的定价低5倍。在我们的测试查询中,o4-mini似乎也使用了更少的令牌 - 在我们的10个测试查询中,总体费用便宜了超过10倍。
定价:
➤ o3深度研究的定价为每百万输入10美元(每百万缓存输入2.50美元),每百万输出40美元
➤ o4-mini深度研究的定价为每百万输入2美元(每百万缓存输入0.5美元),每百万输出8美元
这些端点的费用都比OpenAI的标准o3和o4-mini端点高得多 - 这些的定价为:
➤ o3:每百万输入2美元(每百万缓存0.5美元),每百万输出8美元
➤ o4-mini:每百万输入1.1美元(每百万缓存0.275美元),每百万输出4.4美元

37.03K
图像编辑现在是开源的!黑森林实验室刚刚发布了一种开源权重的图像编辑模型,其性能可与专有模型相媲美。
@bfl_ml 发布了 FLUX.1 Kontext [dev],这是一个 120 亿参数的图像编辑模型。我们获得了预发布访问权限,并在我们的人工分析图像竞技场中进行了测试。
我们独立验证了它的性能与包括谷歌的 Gemini 2.0 Flash 和字节跳动的 Bagel 在内的多种专有模型相当或更优。FLUX.1 Kontext [dev] 仅次于黑森林实验室自己的专有模型和 OpenAI 的 GPT-4o。
托管的 API 也可在 @FAL、@replicate、@togethercompute 上使用。
以下是 HuggingFace 上的权重链接 👐

24.57K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可