热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

EigenPhi HQ 🎯 Wisdom of DeFi (🔭, 🎙) 🦇🔊
企业 AI 的使用案例往往会出现验证混乱的情况。但如果你能利用结构化日志、经济意图或代理行为,就能增强信号。让我们一起努力将这些可验证的行为引入模型训练机制。

Salesforce AI Research9月24日 08:57
📣 验证的变化:理解大型语言模型中的验证动态
📄 论文:
🔗 项目:
你是否曾想过你的 LLM 验证器是否真的可靠?我们的分析框架揭示了三个关键因素,这些因素决定了在问题难度、生成器能力和验证器能力方面的验证成功。
关键见解:
📈 问题难度驱动正确响应识别 - 验证器在简单问题上表现出色,但在困难问题上却挣扎
🔍 生成器强度影响错误检测 - 弱生成器产生明显错误,强生成器则创造出优雅但错误的解决方案
⚖️ 验证器扩展在某些情况下显示出收益递减 - 有时 GPT-4o 仅比较小模型稍强
💡 对于测试时间扩展:弱生成器 + 验证可以匹配强生成器的性能,而昂贵的验证器并不总是值得。
感谢 Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq 的出色工作!
#LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI

744
向TOOL团队致敬 👏 将Ethereum提升为超大规模协处理器是一个颠覆性的改变。在我们这边,只有与透明、可审计的交易处理和优先级数据相匹配时,扩展基础设施才能蓬勃发展。没有这些,低延迟的最终性就会为中心化打开大门。

0xprincess9月24日 22:26
1// 我们自豪地宣布 TOOL 测试网启动!
3.35K
验证者法则是一个很好的视角,杰森。我很好奇你对像密码学或链上记录这样的领域的看法——在这些领域,验证几乎是免费的,但解决方案的复杂性却急剧增加?💭🔐

Jason Wei2025年7月16日
关于验证不对称和“验证者定律”的新博客文章:
验证的不对称性——即某些任务比解决更容易的想法——正在成为一个重要的想法,因为我们有了最终普遍有效的 RL。
验证不对称的一个很好的例子是数独谜题、为 Instagram 等网站编写代码和 BrowseComp 问题(需要 ~100 个网站才能找到答案,但一旦找到答案就很容易验证)。
其他任务具有近乎对称的验证,例如将两个 900 位数字相加或一些数据处理脚本。然而,提出可行的解决方案比验证它们要容易得多(例如,对一篇长文进行事实核查或陈述“只吃野牛”等新饮食)。
关于验证的不对称性,需要了解的一件重要事情是,您可以通过事先做一些工作来改善不对称性。例如,如果您有数学问题的答案,或者您有 Leetcode 问题的测试用例。这大大增加了理想验证不对称的一系列问题。
“验证者定律”指出,训练人工智能解决任务的难易程度与任务的可验证性成正比。所有可能解决且易于验证的任务都将由人工智能解决。训练 AI 解决任务的能力与任务是否具有以下属性成正比:
1. 客观真理:每个人都同意什么是好的解决方案
2. 快速验证:任何给定的解决方案都可以在几秒钟内验证
3. 可扩展验证:可以同时验证多个解决方案
4. 低噪声:验证与解决方案质量尽可能紧密相关
5. 持续奖励:对于单个问题,很容易对多个解决方案的优劣进行排名
验证者定律的一个明显实例化是,人工智能中提出的大多数基准测试都很容易验证,并且到目前为止已经得到解决。请注意,过去十年中几乎所有流行的基准都符合标准 #1-4;不符合标准 #1-4 的基准将很难流行起来。
为什么可验证性如此重要?当满足上述标准时,人工智能中发生的学习量将最大化;您可以采取许多梯度步骤,其中每个步骤都有很多信号。迭代速度至关重要,这就是数字世界的进步比物理世界的进步快得多的原因。
谷歌的 AlphaEvolve 是利用验证不对称性的最佳例子之一。它专注于符合上述所有标准的设置,并导致了数学和其他领域的许多进步。与我们过去二十年来在人工智能领域所做的不同,这是一种新的范式,因为所有问题都在训练集等同于测试集的环境中进行优化。
验证的不对称无处不在,考虑一个参差不齐的智能世界是令人兴奋的,在那里我们可以测量的任何事情都会得到解决。

877
热门
排行
收藏