Tencentは18ドルの予算🤯でファインチューニングとリアルプレイを終わらせました 彼らは従来の強化学習(RL)を完全に置き換える手法を開発しました。 それは「トレーニングフリーGRPO」と呼ばれています。 メモリをポリシー最適化器として扱うことで、LLMは100のサンプルから学習できます。