我剛寫了一篇部落格,介紹我們如何創建第一個版本的 grail (grail-v0),這是一個完全開放的去中心化強化學習訓練系統,專為大型語言模型設計。它是這類系統的首創之一。 所有內容都是公開的:代碼庫、訓練循環、實時訓練曲線、激勵措施、回合。 🧵 1/4