Ingin membuat undang-undang penskalaan untuk RL tetapi tidak yakin bagaimana cara menskalakan? Atau timbangan apa? Atau akankah RL bahkan berskala dapat diprediksi? Kami memperkenalkan: Seni Menskalakan Komputasi Pembelajaran Penguatan untuk LLM