Tôi vừa viết một blog về cách chúng tôi tạo ra phiên bản đầu tiên của grail (grail-v0), một hệ thống đào tạo RL hoàn toàn mở và phi tập trung cho LLMs. Một trong những loại đầu tiên của nó. Mọi thứ đều công khai: mã nguồn, vòng lặp đào tạo, các đường cong đào tạo trực tiếp, các động lực, các đợt triển khai. 🧵 1/4