熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
哭了, SOTA 只是面子, 真幹活還得靠"牛馬模型"
OpenRouter 創始人 Alex Atallah 剛發了個推, 說自己用量最大的還是 Kimi-K2-0711 (7月份的 Kimi-K2-Instruct).
然後是 openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3
我第一看上去, 這人是不是斷網了, 好久沒用新的大模型了?
但仔細一想, 不對, 很不對勁. 這才是真正 Power User 的用法, 太真實了
如果在這個時間點找一個, 足夠大上下文(128K), 性能夠用(SWE-Bench Verified > 65), Agent 能力強(Tau2-bench > 65), 知識面巨廣(參數量相當大), 且回答得快(非Thinking模型), 好像只有 Kimi-K2-Instruct 了.
這麼倒推 Alex Atallah 應該大部分工作都是處理文檔 (長上下文, 尤其是用了13.4M token), 使用工具分析並撰寫報告 (Agent 能力), 這些 Kimi-K2-Instruct 都能搞定, 然後寫寫腳本 (o4 和 Claude-3.7-Sonnet 兜底, 甚至包裝成 Agent 讓 Kimi-k2 調用這些模型來寫腳本).
最後 Kimi-k2 還能滿足最重要的一點, 數據隱私, 因為模型是開放權重的, 可以部署在自家服務器, 任何敏感信息都不會洩露給 OpenAI 或者 Anthropic. 甚至下面那個 GPT-OSS-120B 存在意義應該也在於此.
我大概能懂現在新的大模型為什麼卷 Agent 能力了, 人直接用 AI 只是中間階段, 高級用戶都已經用 AI 來操作 AI 了. 一個用來收發所有 AI 上下文的 Agent 特化模型必然會是用量 Top.
原帖:


熱門
排行
收藏
