热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jeffrey Emanuel
这听起来很傻,但使用 Claude Code 和 Opus 4.1 时最大的生产力技巧之一是:在要求 CC 实现某个功能或修复某个错误或其他事情后,等它说完成了一切后,你只需不断对它重复以下内容,直到它找不到更多错误(有时需要 7 或 8 次!):
“很好,现在我希望你仔细阅读你刚刚写的所有新代码和你刚刚修改的其他现有代码,带着‘新鲜的眼光’,仔细寻找任何明显的错误、问题、困惑等。”
是的,这确实需要一些时间,但这就是为什么同时打开多个 CC 会话是如此方便。然后你可以在它们之间轮换,不断粘贴那句话。
不知怎么的,“新鲜的眼光”会以一种非常有帮助的方式改变它对刚刚写的内容的看法。
奇怪的是,这个技巧在 GPT-5 的思维中似乎效果不佳——它往往只是说“没错,一切看起来都对!”Claude 更容易进行二次猜测,并且在第一次时容易犯粗心错误,但在有足够机会的情况下能很好地发现这些错误。
4.82K
在通过Cursor和网页应用中的GPT-5 Pro模型进行几天的密集使用后,我坚持我所说的一切,认为它是一个更聪明的模型,在编码方面比Opus 4.1更优秀。
我仍然喜欢Opus,并且在许多方面发现Claude Code的使用体验更好,但如果你试图做一些真正困难的事情,需要真正聪明的第一性原理思维和计算机科学能力,GPT-5是一个更高的水平。
但我怀疑这只有在推理努力模式设置为至少中等时才会显现出来,并且在高努力设置下真正表现出来。
一个好的例子是准备两份长而复杂的法律文件的“红线”文档。不是同一文档的不同版本,而是来自共享通用模板的两份不同文档。
这是一个非常非常难以做好工作的难题,需要许多聪明的技巧和启发式方法来提供体面的性能和输出质量(我在这里谈论的是使用传统编程技术,而不是使用LLM进行这种比较)。
与Opus 4.1相比,使用Cursor代理的GPT-5可以更快地提出更多、更好、更聪明(但务实)的想法,并且能够正确实施这些想法,而不需要太多的指导。
不过,这取决于你正在做的工作。例如,我仍然认为我更喜欢Opus的NextJS前端代码。
但你绝对应该在自己的实际问题上进行检查,而不是相信那些说模型糟糕并且证明我们已经碰壁的许多人。
要么他们在没有思考的情况下使用糟糕的免费版本,要么他们根本不知道如何有效地提示,或者他们让自己对OpenAI和Altman的感情影响了他们的看法。
35.97K
我认为我能给予@patrickc和Stripe团队的最高赞誉就是,他们在为其服务打造非常精致和直观的UI/UX方面拥有如此良好的声誉和业绩,以至于在编码提示中提到他们的名字可以从AI编码代理那里获得更好的结果。
例如,我在我的文本编辑器中保存了这个变体,并且每天至少在Claude Code中粘贴它10次:
"我希望你能出色地构建绝对世界级的UI/UX组件,用于展示这些评分报告,既显示详细信息,也作为"徽章"或"摘要卡片",重点是使其在视觉上尽可能吸引人、用户友好、直观、流畅、精致,达到"Stripe级"的质量,利用项目中已经包含的优秀库。"
然后我告诉它,无论它做的是什么,实际上都不是很好("糟透了"或"令人难以置信的糟糕"),即使它已经相当不错,并且它必须大幅改善,以真正达到Stripe级的用户愉悦感、流畅度、精致度、直观性等。
基本上,应用史蒂夫·乔布斯的“精神操控技巧”来迭代实现"疯狂出色"的结果。
是的,如果你不断重复这样做,这真的非常有效。诀窍在于你需要包含所有这些形容词,否则它会变成图标旋转和像杂技演员一样脉动("流畅"和"视觉吸引");你需要其他术语,如"精致"、"直观"和"Stripe级"来平衡,使其在实践中也显得有些简约和好用。
我很高兴我不必作为AI代理为我工作 :/
1.7K
刚刚阅读了Qwen团队的新GSPO论文。
有趣的是,这些重大的理论改进,尽管看似有深厚的基础(在这种情况下,优化整个令牌序列比优化单个令牌更好),最终归结为通过避免数值条件问题来更好地让梯度流动。
当你退后一步看时,GSPO从根本上是一种通过在更新中更好地平均事物来获得更好的数值条件的方法,以避免噪声波动(几乎就像在rmsprop或Adam中使用动量一样),同时忽略那些会导致在条件方面“危险”的数值更新。
但从历史的角度来看,这一切都是有意义的,因为深度学习真正爆发是在我们弄清楚如何通过在优化器中使用动量来避免消失/爆炸梯度问题的时候。因此,从某种意义上说,这只是沿着以更稳健的方式导航损失景观以避免“开车掉进沟里”的传统的最新一步。
3.33K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可