热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
老实说,我拥有全球最快的像素到策略强化学习训练框架,这真的有点疯狂,支持100k三角形、16k独特网格和16k独特世界。
这一切都在一台4090上完成。简单任务只需10分钟。
它有几个很棒的地方。对于事物位置的世界属性查询非常快速,属性如最近的表面是什么。内存不会膨胀,如果我想的话,可以通过资源池化将内存扩展到10万个独特的世界。实时程序生成。
为世界提供即插即用的资产。如果我想的话,我可以使用manifoldcad程序生成网格世界,并在训练期间不断生成新世界。许多策略在记忆方面存在困难,但我的策略没有。每一集都可以是一个新世界,如果我想的话。
自定义渲染方案以加速训练。我可以进行聚焦渲染,以便我可以通过强化学习来学习一个实际的眼球,它会快速移动以确定代理的位置。它确实能够学习。每秒1米、2米的步伐。使用两块GPU,我可以在一个小时内运行12个实验。
我可以通过我的世界引擎免费获得深度感知。我可以通过注入一个在每个世界中批处理操作的pytorch函数来建模和物理。我可以以如此极端的速度运行这么多实验,而且它是如此可配置,因此我学到了很多东西。
我训练了一个模型,只用三个深度查询就能探索一个公寓。这容易吗?不。进行了很多实验。但因为我每天可以运行100次,所以我的进展是你的100倍。我已经找到了如何恰到好处地掌握它的方法,因为我的进展比你快100倍。
我有代码可以对每个角度进行网格搜索,还有代码可以渲染策略的行为,还有代码可以对所有这些进行统计并实时更新图表供我观察,还有代码可以在我的多台机器上运行多个实验。
我基本上已经在这上面工作了两个月,期间还夹杂着硬件和固件的工作。我的训练运行以前需要10个小时,现在只需要10分钟。我觉得你并不真正理解这意味着什么。10分钟
我母亲在90年代曾为交易银行软件编写C++,她的编译时间更长。我的整个训练循环在程序生成的渲染世界上比我妈妈运行数据库交易软件的集成测试所花的时间还要快。
我已经单独重写了我的渲染引擎、训练器集成(pufferlib 扩展,专门用于仅 GPU 训练,因此我的整个循环在 GPU 上原生运行)、实验/发布可视化软件和世界生成软件三次。
我循环的简单速度让一堆本不值得尝试的工作今天变得值得去做。我将做很多以前从未做过的愚蠢事情
有人告诉我像素是个坏主意,因为它很慢,但任何软件都可以变得快速。这其实并不难。
我觉得你们可能不太明白。我训练了一个只使用像素 (!) 的策略,它可以管理物理,拥有 4 个控制通道,能够字面上记住它已经访问过的房间,并在 20hz 的情况下避免碰撞,没有状态。
900k 参数
你明白吗?
我将会赢。
不是一点点。不是通过做每个人都在做的事情。是通过做没有人敢做的事情。只是做那些显而易见的事情,似乎只有我能看到。
我将会赢。

@ChrisRemboldt (是的!)
20.61K
热门
排行
收藏

