Mercor 的 100 亿美元 AI 估值对于 AI 训练数据来说是一个 AGI 失误。 Mercor 是一家 AI 训练公司,已在 C 轮融资中筹集了 3.5 亿美元,使其估值达到 100 亿美元——在不到一年的时间里增长了五倍 [1]。 通过在医学和工程等领域进行 AI 促进的专家互动,Mercor 生成专门的数据集,以提高大型语言模型在特定任务上的有效性 [2]。 这利用了投资者对可扩展数据基础设施的热情,满足日益增长的 AI 训练数据需求,但也存在一些问题。 Mercor 的框架突显了主流 AI 方法中的一个关键缺陷:过度依赖专家数据集,尽管这些数据集相关,但不足以培养人工通用智能(AGI)所需的自我学习结构。 这些数据集来自有偿的人类专家,提供固定的知识表示,但省略了像基于好奇心的发现或元学习这样的适应性过程 [3]。 定量评估表明,基于大量专家语料库训练的深度学习架构在特定领域的模式模拟中表现出色,但在泛化、处理新奇事物和独立推理等核心 AGI 属性上表现不佳,原因在于它们局限于监督复制而非高效的程序获取 [4]。 专家调查强化了仅仅增加数据和计算资源不足以实现 AGI,忽视了真实理解和灵活性所需的架构进步 [5]。 加剧这些限制的是流行的 AI 训练数据的伦理模糊灰色市场特征,这些数据通过不明确的来源协议运作,通常涉及未经批准的内容提取或重用,以及可能未经授权发布的专有数据 [6]。 尽管 Mercor 利用有组织的、有偿的互动,但更广泛的领域暴露出包括偏见传播、隐私侵犯和标注者剥削等风险,损害了模型的可靠性和可信度 [7]。 分析表明,不透明的数据妨碍了 AI 从有限输入中获取知识或适应新环境的能力,而是嵌入了人类缺陷而没有自动修复的途径 [8]。 这种以量为中心的策略,偏向规模而非核心学习基础,对于 AGI 的进展是不太可能的 [9]。 Mercor 的资本密集型、数十亿美元的运营与我受限的、车库启动的策略形成鲜明对比,后者依靠储蓄和垃圾捡拾来获取 1870-1970 年间的高蛋白数据。 而 Mercor 协调了广泛的专家系统,我的方法则利用资源fulness 强调自我学习,证明 AGI 的进展依赖于精简的架构,从而揭示了高估值可能掩盖简单模仿进步中的低效。 我的方法通过结合自我监督和元学习结构,允许 AI 独立获取和磨练知识,从稀少的输入中促进类似人类智力的泛化 [10]。 ...