我在职业生涯中一直在追寻一个问题:我们如何收集正确的数据,使人工智能在现实世界中发挥作用? 从斯坦福实验室到德克萨斯大学奥斯汀分校的课堂,我到处寻找。答案不是另一个人工智能实验室,而是一个将数据视为知识产权的区块链。这就是我为什么要加入@StoryProtocol,担任首席人工智能官的原因。 在斯坦福,我研究了“云机器人”,即如何让机器人群体利用分布式计算共同学习。我甚至在我的车上安装了一个行车记录仪来解决这个问题: 如果机器人只能上传它们看到的5-10%的内容,我们如何选择最有价值的数据? 大部分都是无聊的高速公路录像。但<1%捕捉到了稀有场景:自动驾驶的Waymo、施工现场、不可预测的人类。那些“长尾”数据让模型更聪明。我手动标记了这些数据,甚至支付了谷歌云的标注服务,以“激光雷达单元”和“自动驾驶车辆”等小众概念来注释我的录像,并训练了在USB大小的TPU上运行的模型。但学术界的进展有限。 在德克萨斯大学奥斯汀分校,我的问题发生了转变: → 我们如何众包稀有数据以改善机器学习? → 什么激励机制真正有效? 这让我进入了加密领域——区块链、代币经济,甚至DePIN。我写博客,撰写关于去中心化机器学习的论文,但仍然在想:谁在真正构建这个基础设施? 完全是偶然,我遇到了Story团队。我受邀在他们的帕洛阿尔托办公室做演讲。那时是下午6点,房间里仍然挤满了人。我漫无边际地谈论“神经符号人工智能”,最后以一张名为“加一点加密”的幻灯片结束。那次演讲变成了一个顾问角色,而现在变成了更大的事情。 我们正处于一个关键时刻。计算问题大多已解决。模型架构可以在一夜之间复制。真正的护城河是数据。 不是抓取的Reddit数据。也不是无尽的语言数据。而是经过权利清理的、长尾的、真实世界的数据,训练具身的人工智能——机器人、自动驾驶汽车、能够在我们混乱的世界中导航的系统。 想象一下:我在行车记录仪上捕捉到一个稀有的驾驶场景,并在Story上注册。一个朋友为其标记。一个人工智能代理创建合成变体。在Story的图结构链上,每个都成为链接的知识产权。版税自动流回。每个人都获得报酬,每一步都可以在链上追踪。 这就是我现在在Story担任首席人工智能官的原因,构建去中心化、知识产权清理的训练数据的基础设施。是时候让数据成为新的知识产权了。Story是实现这一目标的地方。 更多内容即将到来。让我们开始吧。
feedsImage
32.52K