RL adalah mekanisme yang kuat untuk melatih model khusus perusahaan tentang pekerjaan dan data unik mereka. Inilah yang kami lakukan di Applied Compute. Tantangan utamanya adalah bagaimana membuat RL efisien, karena kita membutuhkan lari yang cepat (dikirim dalam hitungan hari), murah (ekonomi unit yang dapat diskalakan), dan dapat diprediksi (tidak hanya cepat, tetapi juga cepat yang andal). Berikut adalah beberapa poin: • RL sinkron membuang-buang waktu dan komputasi. • RL asinkron lebih efisien tetapi menimbulkan kebasian, yang menyebabkan ketidakstabilan belajar. • Pemodelan dan simulasi dapat membantu memecahkan secara analitis konfigurasi apa yang mengarah pada efisiensi optimal. Hal ini memungkinkan kami untuk membuat prototipe konfigurasi pelatihan dengan cepat, tanpa membakar siklus komputasi yang mahal pada uji coba. Dua salah satu pendiri kami, @rhythmrg dan @lindensli, membahas beberapa penelitian ini di @aiDotEngineer baru-baru ini, dengan fokus pada submasalah berikut: apa cara throughput tertinggi untuk melakukan RL mengingat kedaluwarsa dan anggaran komputasi maksimum?