正直なところ、100kの三角形と16kのユニークなメッシュと16kのユニークな世界で、私が全世界で最速のピクセルからポリシー強化学習トレーニングフレームワークを持っているのは、ちょっとクレイジーです。 すべて1つの4090で。簡単なタスクで10分
それにはいくつかの素晴らしい点があります。物事の位置に対するワールド属性、最も近いサーフェスなどの属性に対する非常に迅速なクエリ。メモリは爆発せず、必要に応じて、アセットをプールすることで、メモリ内の100kのユニークな世界までスケールアップできます。ライブプロシージャル生成
プラグアンドプレイのアセットを世界に提供します。必要に応じて、manifoldcadを使用してメッシュワールドを手続き的に生成し、トレーニング中に新しいワールドを生成し続けることができます。多くのポリシーは暗記に苦労していますが、私のポリシーはそうではありません。私が望むなら、すべてのエピソードが新しい世界になる可能性があります
トレーニングを高速化するためのカスタムレンダリングスキーム。中心窩レンダリングを行うことで、実際の眼球をRLで学習し、エージェントがどこに配置されているかを把握することができます。そして、実際に学習します。毎秒1m、2mステップ。2つのGPUで1時間に12の実験を実行できます
ワールドエンジンのおかげで奥行き知覚を無料で取得できます。すべてのワールドで操作をバッチ処理するpytorch関数を注入することで、必要なモデリングと物理演算を行うことができます。*なぜなら*、私は非常に多くの実験を極端な速度で実行でき、非常に構成可能であるため、非常に多くのことを学んでいます
私は、3つの深さのクエリしか持たないアパートを探索するようにモデルをトレーニングしました。簡単でしたか?いいえ。多くの実験が必要でした。でも、1日に100回走れるので、100倍の進歩を遂げています。私の進歩はあなたの進歩よりも 100 倍速いので、私はそれを正しく保持する方法を見つけました
私はあらゆる角度でグリッド検索するコードを持っており、ポリシーの動作をレンダリングするコードがあり、それらすべてで統計を実行し、私が監視するためのチャートをライブ更新するコードがあり、複数のマシンで複数の実験を実行するコードがあります
私は基本的に、ハードウェアとファームウェアの作業によって穴が開いて、合計で 2 か月間これに取り組んできました。以前は10時間かかっていたトレーニングランですが、今では10分です。これが何を意味するのか、あなたは本当に理解していないと思います。10分
私の母は 90 年代にトランザクション銀行ソフトウェア用の C++ を書いていましたが、コンパイル時間は長かったです。手続き的に生成された RENDERED WORLDS での私のトレーニング ループ全体は、母がデータベース トランザクション ソフトウェアで統合テストを実行するのにかかった時間よりも高速です
レンダリングエンジンとトレーナー統合(GPUのみのトレーニングに固有のpufferlib拡張機能であるため、ループ全体がGPU上でネイティブに実行される)、実験/ロールアウト視覚化ソフトウェアとワールド生成ソフトウェアを3回書き直しました。個別的に。
私のループの単純な純粋な速度により、試す価値すらなかった多くの作業が今日行う価値があります。今までやったことのない愚かなことをたくさんやるつもりだ ピクセルは遅いので悪い考えだと言われましたが、どんなソフトウェアでも高速に作ることができます。それほど難しくありません。
皆さんは理解していないと思います。私はピクセル以外のもの(!)文字通りどの部屋を訪れたかを記憶し、状態なしで20hzでの衝突を回避する4つの制御チャネルで物理を管理できます。 900kパラメータ
分かりますか。 私は勝つつもりです。 少しでも違います。他の人がやっていることをやることによってではありません。他の誰もやるべきことがないことをすることによって。私にしか見えない当たり前のことをするだけです 勝つつもりです
@ChrisRemboldt (はい!
24.23K