Saya baru saja menulis blog tentang bagaimana kami membuat versi pertama grail (grail-v0), sistem pelatihan RL yang sepenuhnya terbuka dan terdesentralisasi untuk LLM. Salah satu jenis pertamanya. Semuanya bersifat publik: basis kode, loop pelatihan, kurva pelatihan langsung, insentif, peluncuran. 🧵 1/4