熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Kirill Balakhonov | Nethermind
AuditAgent 的建立者 |AI x 加密貨幣 x 產品 |構建代理經濟
為什麼 OpenAI 會釋出開放權重的模型?是為了自殺式經營自己的業務嗎……(還是沒有?)
是的,@OpenAI 剛剛釋出了兩個開放權重的模型,這意味著開發者可以在不支付 OpenAI 任何費用的情況下使用它們。具體來說,它是根據最自由的商業 Apache 2.0 許可證釋出的。那麼,OpenAI 為什麼要這麼做呢?有幾個方面。
但我想澄清的是,當一家公司釋出開放權重的模型時,並不意味著這個模型像你可以自己運行的開源代碼那樣開放,比如 @Linux 操作系統。不,對於 AI 模型來說,情況有點不同。特別是,模型是一個黑箱,一組權重。雖然你可以在不同的任務上測試它並查看它的運作方式,但如果你無法重現訓練過程,你永遠無法知道這個模型中是否存在任何後門或安全漏洞,這些漏洞可能是故意或意外地進入這個模型的。因此,讓我們立刻將這一點與開源區分開來。不幸的是,開放源碼權重的模型不能完全信任(不過它們可能便宜)。
我注意到的另一個方面,如圖片所示,開源模型的質量與 OpenAI 的旗艦模型(僅通過 API 提供)並沒有太大區別。這太棒了!這是意想不到的!你會想,OpenAI 會因為允許開發者使用他們的模型而損失多少錢?然而,這並不是全部。使用 OpenAI 的 API 時,你獲得的並不僅僅是模型。例如,當你通過 UI 使用 ChatGPT 並選擇 o3 模型時,實際上在背後有一個複雜的代理在運作,這個代理在使用這些模型時,擁有大量的邏輯來真正與你的文檔和工具良好協作。你無法通過這些 OpenAI 發布的模型訪問它們。
那麼,OpenAI 為什麼會釋出開放權重的模型呢?首先,他們的主要競爭對手,特別是 @Meta、@MistralAI 和 @deepseek_ai(哦,還有 @Google),已經釋出了競爭性模型,並且人們正在使用這些模型。而 OpenAI 在使用開放模型的人群中的受歡迎程度並沒有增長。然而,對於需要同時擁有開放權重模型(用於本地/私有計算)和 API 可訪問模型(用於更複雜的任務)的開發者來說,如果他們需要兩者,他們根本無法使用 OpenAI。對他們來說,使用 Google 或 DeepSeek 等競爭對手更容易。
其次,來自用戶和監管機構的壓力也很大,他們希望有更多的開放性。人們擔心 AI 可能失控或落入矽谷少數幾家公司的控制之中,並且人們希望有更多的透明度。雖然我敢說,即使只是擔心競爭和銷售下滑,這樣向開放性的轉變也可能會使 OpenAI 的業務變得更大。
第三,當然,還有關於 OpenAI 公司名稱的笑話。根據一切發展的情況,這家名為 OpenAI 的公司在領導者中是最封閉的 AI 公司。這本身就很有趣,但現在這種情況已經改變了。你怎麼看?

268
大多數人根本不理解 AI 替代人類的運作方式(或它是如何不運作的)。即使專家所做的一切加速十倍,也不會自動消除工作本身——它只是重寫了圍繞它的經濟學。當可交付成果的有效價格暴跌時,曾經擱置的潛在需求突然變得可行。我從未遇到過一位產品負責人認為他們的工程師交付的功能超過了路線圖的需求;願望清單總是比人數所能允許的要長。讓每個功能的建造成本降低十倍,你不會將團隊削減十倍——你會點亮每一個曾經看起來無法承擔的「可有可無」功能,以及整個沒有人去範疇的全新產品。
最近 @Microsoft Research 對現實世界 Copilot 使用情況的研究強調了同樣的觀點。用戶來尋求幫助撰寫代碼或收集事實,但模型最終卻成為教練、顧問和教師——將全新的勞動類型融入到一次會話中。職業並不是單一的;它們是子過程的集合,每個過程僅部分(且不完美)地被當前的模型覆蓋。隨著 AI 工具的發展,角色的範疇也隨之演變,往往是擴大而非縮小。
即使在我們在 @NethermindEth 建立的 AI 智能合約審計器中,儘管它的名字如此,我們的目標是過程中非常特定的狹窄部分:尋找潛在的漏洞。與此同時,安全專家將其作為工具,進行更複雜和多面向的工作——制定策略、驗證發現、修正 AI、添加隱含上下文、與開發人員溝通、發現隱藏的意圖和管理期望。
因此,與其統計哪些工作會「消失」,不如問問一旦解決問題的邊際成本驟降,哪些問題變得值得解決。歷史表明答案是「遠比我們能夠配備的要多」,這預示著一個未來,人才被重新部署和倍增,而不是被淘汰。


301
Andrej Karpathy 支援在使用 LLM 的 AI 軟體開發中引入一個與“上下文工程”相關的新術語。
長期以來,這個詞似乎非常必要。每次我向人們解釋我們如何開發 Nethermind AuditAgent 時,除了使用領域專業知識(web3 安全)和使用最好的 AI 模型(來自 OpenAI、Anthropic 和 Google)和 LLM 工具外,其中一個關鍵方面就是“上下文工程”。
有時會有一句話 「context is the king」 ,這確實是真的。LLM,無論是大型高級 LLM 還是優化的小型 LLM,都是一個強大的工具,但就像任何工具一樣,如果它落入壞人之手,您得到的結果將遠不如正確使用它們時那麼有希望。上下文管理(或工程)確實是一個複雜且沒有得到充分描述的領域,它不斷發展,它實際上是作為快速工程概念的延伸出現的,而提示工程的概念已經有一些負面含義。
總的來說,Andrej 列出了與上下文工程相關的主要方面(在第二張截圖中),但在每個具體任務中,人們主要通過反覆試驗來取得出色的結果,每次都單調地嘗試選擇在這個解決問題階段真正需要的正確上下文元素,為每個階段收集基準,查看指標,將數據集劃分為測試, 驗證,依此類推。
您如何看待「上下文工程」?

Andrej Karpathy2025年6月25日
+1 表示 “context engineering” 超過 “prompt engineering”。
人們將提示與您在日常使用中會給 LLM 的簡短任務描述相關聯。在每個工業級 LLM 應用程式中,上下文工程都是一門微妙的藝術和科學,它為下一步填充了正確的資訊。科學,因為做對了這件事涉及任務描述和解釋、少數鏡頭示例、RAG、相關(可能是多模態)數據、工具、狀態和歷史記錄、壓縮......太少或形式錯誤,並且 LLM 沒有正確的上下文來獲得最佳性能。太多或太不相關,LLM 成本可能會上升,性能可能會下降。做好這件事非常重要。而藝術是因為圍繞 LLM 心理學的指導直覺。
除了上下文工程本身之外,LLM 應用程式還必須:
- 將問題直接分解到控制流中
- 恰到好處地打包上下文視窗
- 將調用分派給正確類型和能力的 LLM
- 處理生成驗證 UIUX 流程
- 更多 - 護欄、安全、評估、並行、預取......
因此,上下文工程只是新興的厚層非平凡軟體中的一小部分,該軟體將單個 LLM 調用(以及更多)協調到完整的 LLM 應用程式中。“ChatGPT 包裝器”這個詞很累,而且真的非常非常錯誤。
358
昨天我們將新產品投入生產——I.R.I.S.(誠信與風險情報掃描儀),這是X(前身為Twitter)上的第一個AI代理,它:
• 接受智慧合約存儲庫或已部署合約的位址
• 通過我們的 SaaS 平臺 AuditAgent 執行代碼 — 已經是外部審計師和開發團隊使用的市場領先解決方案
• 在不離開社交源的情況下發佈完整的漏洞報告
為什麼?
• 無摩擦通道。開發人員在他們已經在談論代碼的地方進行審核 - 沒有表單,沒有電子郵件線程。
• AuditAgent 的幕後功能。不僅僅是一個「掃描引擎」 而是我們為實際審計提供支援的旗艦服務。
• 在 ~30 分鐘內獲得洞察力。在深入的人工審查之前進行完美的分類。
• 促進上市。Twitter 代理展示了 AuditAgent 的實力,並將用戶引導至整個平臺。
時間軸上的前16小時
✨ 2.7 M 展示次數
🔥 49 K 參與
📊 85% 的積極情緒 (214 條推文)
🛠️ ≈150條推文分享實際用例
🔍 33 次快速審核
📋 掃描 38 454 行代碼
⚠️ 檢測到 377 個漏洞
個人筆記
就在一年前,我帶著一個聽起來很冒險的假設加入了 Nethermind:“AI 將成為智慧合約安全的重要組成部分,但只有專門的工作流原生工具才能真正幫助專業人士。
12 個月後,我們有兩個產品正在生產中——AuditAgent(現在是 I.R.I.S.(@UndercoverIRIS)——並且對 Web3 安全產生了明顯的影響。
非常感謝整個 @NethermindEth AI 團隊和 @virtuals_io。堅持不懈 + 堅實的假設 + 綜合專業知識 = 行業可以看到的結果。
我們將繼續構建工具,首先為開發人員帶來安全性,以便 Web3 在每次提交時都變得更加安全。

726
剛從倫敦 AI 峰會回來,企業 AI 的前景看起來大不相同
讓我印象深刻的 3 件事:
1️⃣ 產品貨架過於擁擠。
每個展位都承諾提供一個隨插即用的“AI 平臺”,可以神奇地適應任何堆棧。但是,在地板上走動足夠長的時間,您會不斷聽到相同的阻礙因素:沒有 API 的遺留系統、分散的數據、不清晰的業務邏輯。對於一刀切的 SaaS 來說,現實將是殘酷的。
2️⃣ 定製店悄悄閃耀。
將深度領域諮詢與快速定製開發相結合的機構具有明顯的優勢。他們可以進入混亂的中間環節,將東西拼接在一起,然後交付實際在客戶脆弱的基礎設施中運行的東西。
3️⃣ 定製工作越來越便宜,而不是更貴。
隨著代碼生成模型編寫適配器、測試和腳手架,高級開發人員現在可以進行編排,而不是手動鍵入。我們在組織內持續使用 AI 工具的經驗只能證實這一點。
要點
企業 AI 的贏家不會是最華而不實的「開箱即用」代理,他們將是能夠在傳統技術的混亂限制下即時共同創建解決方案的靈活團隊。

255
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可