熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

阑夕
说什么是你的自由,做什么是我的权利,如果我做的得不到你的赞同,那就对了,否则我将与你一样平淡无奇。
昨天Coze的兩款核心產品被開源到GitHub了,分別是Agent的開發平臺Coze Studio和管理平臺Coze Loop,迎來了開發者陣營的一片好評。
今年是Agent大年,Coze也是起了個大早的標杆,但是因為主要價值在於服務專業用戶搭建工作流,Coze和後面的那一撥AI Agent反倒沒有走進同一條河流,於是各有各的熱鬧。
我自己對Coze「搭積木」的玩法還挺喜歡的,比起全託管的Agent,這種半托換的控制力更好,不會出現AI幹AI的、我急我的這種矛盾。
比如你們可能記得,前段時間我發了百度的市值被大家用來聽歌的騰訊音樂給超了的截圖,那個其實就是更早時候在群裡看到兩家公司市值接近的話題,但當時還有一點差距。
我覺得這是很戲劇性的時刻,但自己肯定沒時間每天都去盯著兩家公司的股價然後等到市值交錯的瞬間趕緊截圖,這也太蠢了,當時就是去Coze搭了一個非常簡單的智能體,讓它每天在美股收盤時去查詢百度和騰訊音樂的市值,並對比做出判斷,一旦發現百度的市值低於騰訊音樂,就給我發一條消息。
之後我就扔著沒管了,直到一天起牀後收到提醒,馬上就知道節目效果終於出現了,所以對我來說,這樣可持續工作的智能體,和我在通用Agent裡需要的一次性代碼服務,是不一樣的,很多Agent產品,我用得頻繁,換得也頻繁,但Coze我雖然用得不多,每次遇到事兒卻是真會「復購」。
這次開源的Coze Studio,就是Coze的核心開發模塊,明確意義上的六邊形戰士,應用接口非常豐富,可以很爽的調用第三方工具,另一個Coze Loop就跟我這樣的非商業用戶關係不大了,是為智能體的產品化提供支持的。
比較值得點出來的是,Coze開源選擇了Apache 2.0開源協議,這是對商業化最友好的開源協議,沒有之一,幾乎不會對使用者做出任何限制,一視同仁的將技術開放給從個人開發者到各種體量的公司,而且它不但授予用戶版權,還明確授予了與貢獻相關的專利許可,確保了商用場景的法律安全性。
多少能夠理解Agent賽道的開發者們為此開香檳的態度,技術的流動加速,對於一個新興多變的行業來說,永遠都是不嫌多的,開源社區越是繁榮,AGI平等降臨到每一個人手上的概率就會越高。
2.55K
「華爾街日報」對於硅谷AI搶人大戰的報道寫得既流暢又簡潔,可讀性太高了:
- 上週五,AI初創公司Windsurf的幾百名員工聚集在辦公室準備開Party,慶祝即將被OpenAI以30億美金收購,市場團隊甚至都準備好了宣傳視頻;
- 然後發生了的意外,公司的CEO悄悄帶著一小部分「被選中」的員工轉會加入了Google,這些人拿到了7位數的轉會費,而剩下的員工則被遺棄在已成空殼的公司裡,聽到這個消息後,不少員工哭了起來;
- 到了第一個工作日早晨,新的轉折又出現了,剩下的Windsurf員工再次被喊到了一間辦公室裡,獲悉了第二份通知,他們作為公司的剩餘部分,將被曾經的一家競爭對手收購;
- 這只是2025年硅谷的一個普通週末;
- 地球上最富有的公司之間為了爭奪人才而發起的戰爭,正在以前所未有的效率、交易和背叛上演,那些頭腦聰明的、不曾被如此重視的研究員,身價已經達到NBA頂級球員和好萊塢明星的水平;
- 處於風暴中心的一家公司當然是Meta,扎克伯格為了組建一支AI「夢之隊」,開始用限時有效的報價策略瘋狂挖人,被邀約的研究員必須在當天做出決定,否則offer就失效,這讓被挖公司的傳統談判策略完全失效;
- 作為被挖牆腳的最主要競爭對手,OpenAI的Sam Altman將這種行為稱作「傳教士和僱傭兵之爭」,認為那些為了錢而投奔Meta的研究員是見錢眼開的僱傭兵,而選擇留在OpenAI的人才是意志堅定的傳教士;
- 扎克伯格很是介意這番話,專門寫了帖子迴應,說Meta真正吸引人才的關鍵在於能夠提供研究者實現突破所需的天量計算資源,論及人均可支配算力,沒有任何公司比得上Meta;
- 不過確實有不少人證明了錢不是最重要的,其中就包括OpenAI的首席研究員馬克·陳,在面談時,扎克伯格給陳開出了10億美金的總包待遇,陳猶豫了一會兒,回答說自己在OpenAI挺開心的,暫不考慮;
- OpenAI至少還有10名員工拒絕了扎克伯格開出的3億美金/4年——其中1億美金將在第一年就打到賬戶裡——的轉會條件;
- 陳說這就像是眼睜睜的看著入室搶劫的發生,並幫助安撫員工,說管理層並沒有袖手旁觀,新的薪酬激勵方案很快出臺,「如果其他公司給你們上壓力,比如荒謬的不答應就作廢那種方案,就告訴他們別逼人,這是很重要的決定,逼迫是在不尊重你」;
- 不過,和陳的面談間接啟發了扎克伯格用錢砸人的可能性,他隨後列出了一份清單,主題是「想要的人」,團隊搞到了這些人的聯繫方式,並安排他們去扎克伯格的家裡——而非公司——見面;
- 扎克伯格最終選定了數據標註公司Scale的創始人、28歲的亞歷山大·王來領導Meta的超級AI實驗室,為此花了140億美金作為轉會費,王在Scale的總部向全體員工宣佈自己要離開公司加入Meta,在雷鳴般的喝彩裡,場面就像「一部迪士尼電影的結尾」;
- 幾乎就在這幾天裡,OpenAI和Google立刻切斷了和Scale的合同,Scale也開始裁員;
- Meta還挖到了GitHub的前CEO和SSI的現CEO,這倆人本來還共同經營著一家風險投資公司,扎克伯格非常夠意思的連帶著出錢買了這家公司49%的股份,用來給投資者解套,然後乾淨利落的解散;
- 如果你們還記得,SSI就是OpenAI當年宮鬥大戲裡被踢出局的首席科學家Ilya Stuskever單飛創立的新公司,扎克伯格在家裡請Stuskever吃飯,提議買下SSI,遭拒絕後,就挖走了SSI的CEO,Stuskever得知同事就這麼跑了之後「非常震驚」;
- 回到Windsurf的故事,和OpenAI的交易之所以失敗,是因為OpenAI的最大投資者反對,而在CEO扔下公司加入Google之後,臨時CEO收到了同爲AI編程公司Cognition(Davin的開發商)的一封郵件,標題是和簡單的一個詞:「聊聊?」;
- 用了一個週末的時間,Windsurf敲定了被收購的方案,臨時CEO告訴員工,所有人都能從交易中得到收益,這一次,被期待已久的全場鼓掌終於響了起來。
35.03K
如果一個法案,就能實現這種指數級的增長(我都看到有說GDP翻倍的了),那經濟學真的不存在了,這法案本身也是公開的,各個國家都來抄一份帶回家得了。MAGA抱怨馬斯克有反對意見卻不選擇私下溝通、一定要公開鬧得親痛仇快是低情商,我看他是真沒辦法說服自己假裝相信這些扯JB蛋,是怎麼能一本正經的講童話故事啊?

花岗岩³7月2日 07:32
贝森特:我钦佩埃隆在火箭领域的领导力。我会负责财务。
基尔梅德:他说这会增加5万亿美元的赤字——你不同意吗?
贝森特:我完全不同意。这项法案将引发前所未有的增长……一旦你看到增长轨迹转为上升趋势,这项法案的收益将远远超过其成本,我们甚至可能实现财政盈余。
36.64K
對了,Meta在AI研究員圈子裏瘋狂砸錢挖人的結果,還有一個很微妙的結構變化,那就是:
Yann LeCun,Meta的首席AI科學家,圖靈三巨頭之一,卷積神經網絡的創造者,64歲的大牛,現在,事實上,要向Meta新任命的AI一把手,之前從事數據標註的,28歲的MIT輟學生Alexandr Wang,彙報。
在大浪襲來的當口,資歷、輩分、榮譽這些通通都被撇開了。
很多人在推上「關心」Yann LeCun的感受,他老人家倒是圓得心平氣和,覺得自己本來就應該待在學術崗位上,老闆是誰並沒有那麼重要。
也有預測Yann LeCun會在一年內辭職的猜測,除了誅心的原因之外,還和Yann LeCun本人其實一直對這波大模型的發展方向持負面態度有關,如果他堅信Meta豪賭的架構是錯的,那麼工作起來勢必更加難受。


57.49K
繼上次不少媒體拿大模型做了高考數學題以後,今年的高考全科真題測評結果也出來了,不過這次進行測評的是字節Seed團隊,很明顯能看出,他們對上次豆包的高考數學成績是充滿意外和驚喜的,也在摩拳擦掌想試試看它在全科試題裡會表現如何。
老規矩,這次參戰的5個大模型,仍然是市面上各種跑分都名列前茅的選手:Gemini 2.5Pro、DeepSeek R1、Claude 4、OpenAI o3,以及Seed1.6-Thinking。
高考其實是一種非常典型的測試場景,既能達到測試大模型泛化能力的目的,同時又兼具很高的實用性,也不難想象類似的使用場景,應該可以在教學、科研等方面發揮更大價值。
這次做的是「山東版」高考全科試卷,分文理科排名,為了確保公平,不僅評測方式完全對齊高考判卷方法,開放題由兩名有資深聯考判卷經驗的高中老師進行評估,而且大模型也沒有引入任何提示詞工程,所有輸入都是高考原題。
簡單來說,這跟一名真實考生做卷子的環境幾乎沒有區別。
還是先說結論,大模型的整體能力目前已經能拿到一個相當高的分數,其中位列文、理科頭名的豆包和Gemini,分別拿到了文科683和理科655分的成績——這分數甚至可以衝擊一下清北——截取一些測評結果裡的關鍵信息給你們看看:
- 不出意料的,大模型表現最好的學科是英語,幾家測評成績都很接近,難以拉開差距;
- 普遍得分最低的學科是化學和生物,不過這跟試題本身有關,這兩個學科涉及到的讀圖題很多,由於這套試題不是官方發佈,所以有些圖比較模糊,直接造成了大模型的失分;
- 豆包在語文、英語、物理、地理、歷史、政治六門學科裡均拿到了最高分,其中文科類目裡的地理、歷史、政治優勢明顯,事實證明在不同語種的語境裡,大模型的表現可能是天差地別的;
- 與豆包相反,Gemini的理科表現很強勁,哪怕在圖不清楚的情況下,化學、生物仍然拿到了最高分,它與豆包的路線差別很有觀察價值;
- 跟上次高考數學的測評結果略有差異,這次數學學科的榜首是DeepSeek,不過同樣與其他大模型差距很小;
- GPT o3又開始整活,上次它是唯一一個在數學客觀題上丟分的大模型,結果這次語文作文直接寫跑題了,這導致o3的語文分數成了所有大模型語數英主科15份成績裡,唯一一個沒有過百的...
- 在發現了化學、生物的讀圖問題後,測試團隊找到了一份更高清版本的試卷,並且採用圖文交織的方式把這兩科重做了一遍,結果發現豆包通過這種方式,兩科總分還能再提高30分左右,這就意味著圖文同步的全模態推理,可以更大程度激發模型潛力,很值得深究;
- 目前看來,大模型的視覺方案進步神速,但畢竟視覺的TOKENS消耗要比普通任務高得多,所以它眼下要解決的主要問題,還是如何降本;
- 除了高考全科真題外,測試團隊還進行了另一項印度理工學院JEE Advanced的考試測評,題目全部採用圖片輸入,總分仍然是Gemini和豆包領先,甚至兩個模型的成績,已經可以進到印度TOP 10了。
當然,大費周章做這麼多測試,倒不是說它是測量大模型能力的唯一標準,比如今年年初AI行業知名的HLE基準剛出現的時候,各大主流模型的得分普遍低於10%,但HLE的開發團隊也說了,按照歷史規律來看,今年年底這個數字可能就會有50%。
我的意思是,無論人類如何絞盡腦汁讓AI做題,把題目通關也都是假以時日的問題,但這不代表做題成績就沒有意義了,重要的是不斷精進學習的過程,也是探索AI究竟能多大程度上為人類所用的必要步驟。
已經開始期待明年高考,AI會給我們一番怎樣的景象了。
35.96K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可