私はちょうど、Grail(grail-v0)の最初のバージョンをどのように作ったかについてブログを書きました。これはLLM向けの完全オープンで分散型の強化学習システムです。その初期の種の一つです。 すべてが公開されています:コードベース、トレーニングループ、ライブトレーニングカーブ、インセンティブ、ロールアウトなど。 🧵 1/4