熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
老實說,我擁有全球最快的像素到政策強化學習訓練框架,這真的有點瘋狂,擁有 100k 三角形、16k 獨特網格和 16k 獨特世界。
全部在一台 4090 上。簡單任務只需 10 分鐘。
這個有幾個很棒的地方。對於事物位置的世界屬性進行非常快速的查詢,屬性如最近的表面是什麼。記憶體不會爆炸,如果我想的話,可以通過資源池化擴展到 100k 個獨特的世界在記憶體中。實時程序生成。
即插即用的資產為世界而生。如果我想的話,我可以使用manifoldcad程序性地生成網格世界,並在訓練期間不斷生成新世界。許多策略在記憶方面掙扎,但我的不會。每一集都可以是新世界,如果我想的話。
自訂渲染方案以加速訓練。我可以進行聚焦渲染,這樣我就可以進行強化學習,模擬實際的眼球,快速移動以找出代理的位置。它實際上是可以學習的。每秒1米、2米的步伐。使用兩個GPU,我可以在一小時內運行12個實驗。
我可以免費獲得深度感知,因為我的世界引擎。我可以通過注入一個在每個世界中批量處理操作的 pytorch 函數來建模和物理。我能以如此極端的速度進行如此多的實驗,並且它是如此可配置,因此我學到了很多東西。
我訓練了一個模型,只用三個深度查詢來探索一個公寓。這容易嗎?不。這需要很多實驗。但因為我每天可以運行100次,所以我的進展是你的100倍。我已經找到了如何恰到好處地掌握它的方法,*因為*我的進展比你快100倍。
我有程式碼可以對每個角度進行網格搜索,還有程式碼可以渲染政策的行為,還有程式碼可以對所有這些進行統計分析,並實時更新一個圖表讓我觀察,還有程式碼可以在我的多台機器上運行多個實驗。
我基本上已經在這上面工作了兩個月,期間穿插著硬體和韌體的工作。我的訓練運行以前需要10小時,現在只需要10分鐘。我不認為你真的理解這意味著什麼。10分鐘
我母親在90年代曾為交易銀行軟體編寫C++,而她的編譯時間更長。我的整個訓練循環在程序生成的渲染世界上比我媽媽執行資料庫交易軟體的整合測試所花的時間還要快。
我已經重寫了我的渲染引擎和我的訓練器整合(pufferlib 擴展專門用於僅 GPU 訓練,因此我的整個循環在 GPU 上原生運行),以及我的實驗/推出可視化軟體和我的世界生成軟體,現在已經三次了。單獨來說。
我迴圈的簡單速度讓一堆根本不值得嘗試的工作今天變得值得去做。我將會做很多以前從未做過的愚蠢事情
有人告訴我像素是一個糟糕的主意,因為它很慢,但任何軟體都可以變得快速。這其實並不難。
我不認為你們明白。我訓練了一個政策,僅使用像素 (!) 來管理物理,擁有 4 個控制通道,能夠字面上記住它已經訪問過的房間,並在 20Hz 的頻率下避免碰撞,且沒有狀態。
900k 參數
你明白嗎?
我將會贏。
不是一點點。不是跟著大家的做法。是做那些沒有人敢做的事情。只是做那些對我來說顯而易見的事情。
我將會贏。

@ChrisRemboldt (是的!)
20.61K
熱門
排行
收藏

