Właśnie napisałem bloga o tym, jak stworzyliśmy pierwszą wersję grail (grail-v0), w pełni otwartego, zdecentralizowanego systemu treningowego RL dla LLM-ów. Jeden z pierwszych tego typu. Wszystko jest publiczne: kod źródłowy, pętla treningowa, krzywe treningowe na żywo, zachęty, rollouty. 🧵 1/4