強化学習は、企業固有のモデルを独自の作業やデータに基づいて訓練する強力な仕組みです。これがApplied Computeでやっていることです。重要な課題は、強化学習を効率化する方法です。なぜなら、実行は速く(数日で提供される)、安価(スケーラブルな単位経済)、予測可能(単に速いだけでなく、確実に速い)である必要があるからです。以下にいくつかのポイントを挙げます。 • 同期強化学習は時間と計算の無駄遣いを強います。 ・非同期強化学習はより効率的ですが、学習の不安定性を引き起こす停滞性を生みます。 • モデリングやシミュレーションは、最適な効率をもたらす構成を解析的に解くのに役立ちます。これにより、試験運用で高価な計算サイクルを消費することなく、迅速にトレーニング構成のプロトタイプを作成できます。 共同創業者の2人、@rhythmrgと@lindensliは最近@aiDotEngineerでこの研究の一部を議論し、次のサブ問題に焦点を当てました。すなわち、最大のスプレッド性と計算予算を前提に、最もスループットの高い強化学習の方法は何か?