Tại @covenant_ai, chúng tôi đã tạo ra RL phi tập trung cho LLM nhanh như RL tập trung. Chúng tôi đạt được giảm băng thông hơn 100× cho việc đồng bộ trọng số. Hoàn toàn không mất dữ liệu. Đây là cách chúng tôi đã làm điều đó! (1/n)