RL là một cơ chế mạnh mẽ để đào tạo các mô hình cụ thể cho công ty dựa trên công việc và dữ liệu độc đáo của họ. Đây là những gì chúng tôi làm tại Applied Compute. Một thách thức chính là làm thế nào để làm cho RL hiệu quả, vì chúng tôi cần các lần chạy nhanh (được giao trong vài ngày), rẻ (kinh tế quy mô có thể mở rộng) và có thể dự đoán (không chỉ nhanh, mà còn nhanh một cách đáng tin cậy). Dưới đây là một số điểm rút ra: • RL đồng bộ lãng phí thời gian và tính toán. • RL không đồng bộ hiệu quả hơn nhưng gây ra sự cũ kỹ, điều này dẫn đến sự không ổn định trong việc học. • Mô hình hóa và mô phỏng có thể giúp giải quyết phân tích cho cấu hình nào dẫn đến hiệu quả tối ưu. Điều này cho phép chúng tôi nhanh chóng tạo mẫu các cấu hình đào tạo, mà không phải tiêu tốn các chu kỳ tính toán đắt đỏ cho các lần chạy thử. Hai trong số các đồng sáng lập của chúng tôi, @rhythmrg và @lindensli, đã thảo luận về một số nghiên cứu này tại @aiDotEngineer gần đây, với trọng tâm vào vấn đề phụ sau: cách nào là cách có thông lượng cao nhất để thực hiện RL với một mức độ cũ kỹ và ngân sách tính toán tối đa?