熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jeffrey Emanuel
這聽起來很傻,但使用 Claude Code 和 Opus 4.1 時最大的生產力技巧之一是:在要求 CC 實現某個功能或修復某個錯誤或其他事情後,等它說完成了一切後,你只需不斷對它重複以下內容,直到它找不到更多錯誤(有時需要 7 或 8 次!):
“很好,現在我希望你仔細閱讀你剛剛寫的所有新代碼和你剛剛修改的其他現有代碼,帶著‘新鮮的眼光’,仔細尋找任何明顯的錯誤、問題、困惑等。”
是的,這確實需要一些時間,但這就是為什麼同時打開多個 CC 會話是如此方便。然後你可以在它們之間輪換,不斷粘貼那句話。
不知怎麼的,“新鮮的眼光”會以一種非常有幫助的方式改變它對剛剛寫的內容的看法。
奇怪的是,這個技巧在 GPT-5 的思維中似乎效果不佳——它往往只是說“沒錯,一切看起來都對!”Claude 更容易進行二次猜測,並且在第一次時容易犯粗心錯誤,但在有足夠機會的情況下能很好地發現這些錯誤。
4.82K
在透過Cursor和網頁應用中的GPT-5 Pro模型進行幾天的密集使用後,我堅持我所說的一切,認為它是一個更聰明的模型,在編碼方面比Opus 4.1更優秀。
我仍然喜歡Opus,並且在許多方面發現Claude Code的使用體驗更好,但如果你試圖做一些真正困難的事情,需要真正聰明的第一性原理思維和計算機科學能力,GPT-5是一個更高的水平。
但我懷疑這只有在推理努力模式設置為至少中等時才會顯現出來,並且在高努力設置下真正表現出來。
一個好的例子是準備兩份長而複雜的法律文件的“紅線”文檔。不是同一文檔的不同版本,而是來自共享通用模板的兩份不同文檔。
這是一個非常非常難以做好工作的難題,需要許多聰明的技巧和啟發式方法來提供體面的性能和輸出質量(我在這裡談論的是使用傳統編程技術,而不是使用LLM進行這種比較)。
與Opus 4.1相比,使用Cursor代理的GPT-5可以更快地提出更多、更好、更聰明(但務實)的想法,並且能夠正確實施這些想法,而不需要太多的指導。
不過,這取決於你正在做的工作。例如,我仍然認為我更喜歡Opus的NextJS前端代碼。
但你絕對應該在自己的實際問題上進行檢查,而不是相信那些說模型糟糕並且證明我們已經碰壁的許多人。
要麼他們在沒有思考的情況下使用糟糕的免費版本,要麼他們根本不知道如何有效地提示,或者他們讓自己對OpenAI和Altman的感情影響了他們的看法。
35.97K
我認為我能給予@patrickc和Stripe團隊的最高讚美就是他們擁有如此優秀的聲譽和出色的記錄,為他們的服務打造了非常精緻和直觀的UI/UX,以至於在編碼提示中引用他們的名字能夠從AI編碼代理那裡獲得更好的結果。
例如,我在我的文本編輯器中保存了一個變體,每天至少在Claude Code中粘貼10次:
"我希望你能為這些評分報告構建絕對世界級的UI/UX組件,展示詳細信息以及作為"徽章"或"摘要卡片",並強烈關注使其在視覺上最具吸引力、用戶友好、直觀、流暢、精緻,達到"Stripe級"的質量,並利用已經是項目一部分的優秀庫。"
然後我告訴它,無論它做的什麼都真的不那麼好("糟透了"或"令人難以置信的糟糕"),即使它已經相當不錯,並且必須大幅改善才能真正達到Stripe級的用戶滿意度和流暢度、精緻度、直觀性等。
基本上,應用史蒂夫·喬布斯的精神操控技術,迭代地實現"瘋狂出色"的結果。
是的,如果你不斷重複這樣做,這真的非常有效。關鍵是你需要包含所有這些形容詞,否則它會退化成圖標旋轉和像雜技演員一樣脈動("流暢"和"視覺上吸引人");你需要其他術語,如"精緻"和"直觀"以及"Stripe級"來平衡,使其在實踐中也能保持一定的簡約和良好的使用體驗。
我很高興我不必為我自己工作作為AI代理 :/
1.7K
剛剛閱讀了Qwen團隊的新GSPO論文。
有趣的是,這些重大的理論改進,儘管似乎有深厚的基本基礎(在這種情況下,優化整個標記序列比優化單個標記更好),最終都歸結於通過避免數值條件問題來讓梯度更好地流動。
當你退一步看時,GSPO基本上是一種通過在更新中更好地平均事物來獲得更好的數值條件的方法,以避免噪聲波動(幾乎就像在rmsprop或Adam中使用動量一樣),並且還忽略那些會導致在條件方面數值上“危險”情況的更新。
但從歷史的角度來看,這一切都是有意義的,因為當我們弄清楚如何通過在優化器中使用動量來避免消失/爆炸梯度問題時,深度學習真的爆炸性增長。因此,在某種程度上,這只是沿著以更穩健的方式導航損失景觀以避免“開進溝裡”的傳統的最新一步。
3.33K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可