热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Kirill Balakhonov | Nethermind
AuditAgent 的创建者 |AI x 加密货币 x 产品 |构建代理经济
为什么OpenAI发布了开放权重的模型?是为了杀死自己的业务……(还是不是?)
是的,@OpenAI刚刚发布了两个开放权重的模型,这意味着开发者可以在不支付OpenAI任何费用的情况下使用它们。具体来说,它是根据最宽松的商业Apache 2.0许可证发布的。那么,OpenAI为什么要这样做呢?有几个方面。
但我想澄清的是,当一家公司发布一个开放权重的模型时,并不意味着这个模型像你可以自己运行的开源代码那样完全开源,比如@Linux操作系统。不是的,AI模型有点不同。特别是,模型是一个黑箱,一组权重。虽然你可以在不同的任务上测试它并查看它的工作方式,但如果你无法重现训练过程,你永远无法知道这个模型内部是否存在任何后门或安全漏洞,这些漏洞可能是故意或意外地出现在这个模型中的。因此,让我们立即将其与开源区分开来。不幸的是,具有开源权重的模型不能完全信任(尽管它们可能便宜)。
我注意到的另一个方面,如图所示,是开源模型的质量与OpenAI的旗舰模型(仅通过API提供)并没有太大区别。这太棒了!这出乎意料!你会想,OpenAI通过允许开发者使用他们的模型能损失多少钱?然而,这并不是全部。使用OpenAI通过API时,你获得的并不仅仅是模型。例如,当你通过UI使用ChatGPT并选择o3模型时,实际上在后台有一个复杂的代理在工作,使用这些模型时,有很多逻辑被写在上面,以便真正与您的文档和工具良好配合。你无法通过这些OpenAI发布的模型访问它们。
那么,OpenAI为什么发布了开放权重的模型?首先,他们的主要竞争对手,特别是@Meta、@MistralAI和@deepseek_ai(哦,还有@Google),已经发布了人们使用的开放权重的竞争模型。而OpenAI在使用开放模型的人群中的受欢迎程度并没有增长。然而,对于需要同时使用开放权重模型(用于本地/私有计算)和API可访问模型(用于更复杂的任务)的开发者来说,如果他们需要两者,他们根本无法使用OpenAI。对他们来说,使用像Google或DeepSeek这样的竞争对手更容易。
其次,用户和监管者都施加了重大压力,他们希望有更多的开放性。人们担心AI可能失控或落入硅谷少数几家公司的控制之下,人们希望有更多的透明度。尽管我敢说,即使只是担心竞争和销售下降,这种向开放性的转变也可能使OpenAI的业务变得更大。
第三,当然,还有关于OpenAI公司名称的玩笑。根据一切的发展情况,名为OpenAI的公司在领导者中是最封闭的AI公司。这本身就很有趣,但现在这种情况已经改变。你怎么看?

269
大多数人根本不理解AI替代人类的工作是如何运作的(或者说它是如何不运作的)。即使专家所做的一切加速十倍,也并不意味着工作本身会自动消失——它只是重写了围绕它的经济学。当可交付成果的有效价格暴跌时,曾经搁置的潜在需求突然变得可行。我从未遇到过一个产品负责人认为他们的工程师交付的功能超过了路线图的需求;愿望清单总是比人手允许的要长。让每个功能的构建成本降低十倍,你并不会将团队缩减十倍——你会点亮每一个曾经看起来负担不起的“可有可无”的功能,以及没有人愿意进行范围界定的整个新产品。
最近@Microsoft Research对现实世界中Copilot使用的研究强调了同样的观点。用户寻求帮助来撰写代码或收集事实,但模型最终会进行辅导、建议和教学——将全新的劳动形式融入到一个会话中。职业并不是单一的;它们是子过程的集合,每个子过程仅部分(且不完美)地被今天的模型覆盖。随着AI工具的发展,角色的范围也随之演变,往往是扩展而非缩小。
即使在我们在@NethermindEth构建的AI智能合约审计工具中,尽管它的名字如此,我们的目标是过程中的一个非常特定的狭窄部分:寻找潜在的漏洞。与此同时,安全专家将其作为工具,进行更复杂和多面的工作——制定策略、验证发现、纠正AI、添加隐含背景、与开发者沟通、发现隐藏意图和管理期望。
因此,与其统计哪些工作会“消失”,不如问一问一旦解决这些问题的边际成本骤降,哪些问题变得值得解决。历史表明答案是“远远超过我们能够配备的人才”,这也为一个人才被重新部署和倍增的未来辩护,而不是被淘汰。


302
Andrej Karpathy 支持在使用 LLM 的 AI 软件开发中引入与 "上下文工程" 相关的新术语。
这个术语早已显得非常必要。每当我向人们解释我们是如何开发 Nethermind AuditAgent 时,除了使用领域专业知识(web3 安全)和使用来自 OpenAI、Anthropic 和 Google 的最佳可用 AI 模型以及 LLM 工具之外,一个关键方面正是 "上下文工程"。
有时会有一句话 "上下文是王",这确实是事实。无论是巨大的先进 LLM 还是优化的小型 LLM,都是强大的工具,但就像任何工具一样,如果在错误的手中,你得到的结果远不如你正确使用它们时的结果。上下文管理(或工程)确实是一个复杂且描述不够清晰的领域,正在不断发展,它实际上是作为提示工程概念的扩展而出现的,而提示工程已经有一些负面含义。
总体而言,Andrej 列出了与上下文工程相关的主要方面(在第二张截图中),但在每个具体任务中,人们在很大程度上通过反复试验取得了出色的结果,每次单调地尝试选择在这个问题解决阶段真正需要的上下文元素,收集每个阶段的基准,查看指标,将数据集划分为测试、验证等,等等。
你对 "上下文工程" 有什么看法?

Andrej Karpathy2025年6月25日
+1 对于 "上下文工程" 而非 "提示工程"。
人们将提示与日常使用中给 LLM 的简短任务描述联系在一起。而在每个工业级 LLM 应用中,上下文工程是将正确的信息填充到上下文窗口以进行下一步的微妙艺术和科学。科学在于,正确地做到这一点涉及任务描述和解释、少量示例、RAG、相关(可能是多模态)数据、工具、状态和历史、压缩……太少或形式错误,LLM 就没有正确的上下文以实现最佳性能。太多或太无关,LLM 的成本可能会上升,性能可能会下降。做好这一点是非常复杂的。而艺术在于对 LLM 心理学和人类精神的引导直觉。
除了上下文工程本身,LLM 应用还必须:
- 恰当地将问题分解为控制流
- 恰当地打包上下文窗口
- 调度合适类型和能力的 LLM 调用
- 处理生成-验证 UIUX 流程
- 还有很多 - 保护措施、安全性、评估、并行处理、预取……
因此,上下文工程只是一个新兴的复杂软件层中的一小部分,该层将单个 LLM 调用(以及更多)协调成完整的 LLM 应用。"ChatGPT 包装器" 这个术语已经过时,真的非常错误。
359
昨天我们将一款新产品推向了生产——I.R.I.S.(完整性与风险智能扫描器),这是在X(前身为Twitter)上首个AI代理,具有以下功能:
• 接受智能合约代码库或已部署合约的地址
• 通过我们的SaaS平台AuditAgent运行代码——这已经是外部审计师和开发团队使用的市场领先解决方案
• 在社交动态中发布完整的漏洞报告
为什么?
• 无摩擦的渠道。开发者在讨论代码的地方获得审计——无需填写表单,无需邮件线程。
• AuditAgent在后台运行。不仅仅是一个“扫描引擎”,而是我们旗舰服务,支持现实世界的审计。
• 大约30分钟内获得洞察。在深入的手动审查之前进行完美的分类。
• 市场推广助力。Twitter代理展示了AuditAgent的实力,并将用户引导到完整平台。
前16小时的时间线
✨ 270万次印象
🔥 49K次互动
📊 85%的积极情绪(214条推文)
🛠️ ≈150条推文分享实际用例
🔍 33次快速审计
📋 38454行代码被扫描
⚠️ 检测到377个漏洞
个人感言
正好一年前,我加入了Nethermind,带着一个听起来很冒险的假设:“AI将成为智能合约安全的重要组成部分,但只有专业的、工作流程原生的工具才能真正帮助专业人士。”
十二个月后,我们有两款产品投入生产——AuditAgent(现在还有I.R.I.S.(@UndercoverIRIS))——并对Web3安全产生了明显影响。
非常感谢整个@NethermindEth AI团队和@virtuals_io。坚持 + 坚实的假设 + 结合的专业知识 = 行业可见的成果。
我们将继续构建工具,优先为开发者带来安全性——让Web3在每次提交中变得更安全。

727
刚从伦敦AI峰会回来——企业AI的格局近距离看起来截然不同
让我印象深刻的三件事:
1️⃣ 产品货架过于拥挤。
每个展位都承诺提供一种即插即用的“AI平台”,可以神奇地适应任何技术栈。但在展厅走久了,你会不断听到同样的障碍:没有API的遗留系统、分散的数据、不清晰的商业逻辑。对于一刀切的SaaS来说,现实将是残酷的。
2️⃣ 定制开发公司悄然崭露头角。
结合深厚领域咨询与快速定制开发的机构具有明显优势。他们能够深入复杂的中间环节,将各个部分连接起来,并交付能够在客户脆弱基础设施中实际运行的解决方案。
3️⃣ 定制工作变得更便宜,而不是更贵。
随着代码生成模型编写适配器、测试和脚手架,资深开发者现在更多地是进行协调,而不是手动输入。我们在组织内持续使用AI工具的经验也证实了这一点。
结论
企业AI的赢家不会是最闪亮的“开箱即用”代理——而是那些能够实时共同创造解决方案的灵活团队,受制于遗留技术的复杂限制。

256
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可