热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

swyx
以意向性、强度和完整性实现雄心壮志
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
llm 分析(以及监管和 PMing)之所以困难,是因为相关的维度随着每一代前沿模型的出现而不断变化;仅仅将 x 或 y 轴设置为对数刻度并跟踪缩放法则是不够的,你必须真正努力思考模型在 2025 年、2024 年、2023 年等结构上的不同。
例如,
每个人关注 elo 两年,elo 被利用并失去信誉;
每个人关注代币价格三年,推理模型在每个任务的输出代币上有 10-40 倍的变化,代币价格失去意义。
你可以尽情收集数据,但如果你只是收集原始的时间序列,你可能会失去更大的视野。
(以及为什么像“ai 工程师并不存在,因为所有软件工程师都是 ai 工程师”这样的说法是自我安慰,除了在最琐碎的意义上永远不会正确)

Scott Huston7月22日 08:30
是否有一个公开的电子表格,列出不同公司所有领先的LLM模型,包括它们的定价、基准分数、竞技场ELO分数等?
9.91K
swyx 已转发
如果正如@sgrove所提议的,规范是未来的代码,那么调试是什么?
1) 规范编译是一个编码代理将规范转化为代码的过程
2) 越来越多的“编译”将是无人值守的,减少观察代理逐行工作的时间,更多的是规范输入,代码输出
3) 类型错误 -> 真实性错误:大多数调试将是深入研究和实施计划中的markdown,以找到那一行错误的上下文,这使得编码代理在实施时无法成功。测试套件将检查真实性和逻辑一致性等内容。
4) 有一种新的更高阶的“附加步骤调试器”的风味,即观察代理逐步实施计划,以找出规范中的逻辑错误。当你在逐行调试程序时发现错误时,你会更改代码,重新启动过程,并重复直到它正常工作。当你在实施过程中逐步检查*规范*时发现错误时,你会向上游修复规范,并重新启动*实施*。
10.27K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可